better data streaming

Former-commit-id: 00baaa990e
2026-03-16 00:55:59 +08:00 · 2023-11-19 23:32:47 +08:00
parent d1e03512f4
commit 32545bd6d9
2 changed files with 4 additions and 1 deletions
--- a/assets/wechat.jpg
+++ b/assets/wechat.jpg
--- a/src/llmtuner/data/loader.py
+++ b/src/llmtuner/data/loader.py
@@ -60,9 +60,12 @@ def get_dataset(
            split=data_args.split,
            cache_dir=model_args.cache_dir,
            token=model_args.hf_hub_token,
-            streaming=data_args.streaming
+            streaming=(data_args.streaming and (dataset_attr.load_from != "file"))
        )
        if data_args.streaming and (dataset_attr.load_from == "file"):
            dataset = dataset.to_iterable_dataset() # TODO: add num shards parameter
        if max_samples is not None: # truncate dataset
            dataset = dataset.select(range(min(len(dataset), max_samples)))