better data streaming

2026-06-22 23:28:57 +08:00 · 2023-11-19 23:32:47 +08:00
parent 211b2db5a8
commit 00baaa990e
2 changed files with 4 additions and 1 deletions
--- a/assets/wechat.jpg
+++ b/assets/wechat.jpg
--- a/src/llmtuner/data/loader.py
+++ b/src/llmtuner/data/loader.py
@@ -60,9 +60,12 @@ def get_dataset(
            split=data_args.split,
            cache_dir=model_args.cache_dir,
            token=model_args.hf_hub_token,
-            streaming=data_args.streaming
+            streaming=(data_args.streaming and (dataset_attr.load_from != "file"))
        )
        if data_args.streaming and (dataset_attr.load_from == "file"):
            dataset = dataset.to_iterable_dataset() # TODO: add num shards parameter
        if max_samples is not None: # truncate dataset
            dataset = dataset.select(range(min(len(dataset), max_samples)))