Release v0.1.6

Former-commit-id: a48cb0d474
2026-06-19 13:48:55 +08:00 · 2023-08-11 23:25:57 +08:00
parent e86c4ef06c
commit 79f4ba0d26
18 changed files with 127 additions and 41 deletions
--- a/src/llmtuner/dsets/loader.py
+++ b/src/llmtuner/dsets/loader.py
@@ -93,11 +93,13 @@ def get_dataset(
                dataset = dataset.rename_column(getattr(dataset_attr, column_name), column_name)

        if dataset_attr.source_prefix: # add prefix
-            features = None
            if data_args.streaming:
                features = dataset.features
                features["prefix"] = Value(dtype="string", id=None)
-            dataset = dataset.map(lambda _: {"prefix": dataset_attr.source_prefix}, features=features)
+                dataset = dataset.map(lambda _: {"prefix": dataset_attr.source_prefix}, features=features)
+            else:
+                prefix_data = [dataset_attr.source_prefix] * len(dataset)
+                dataset = dataset.add_column("prefix", prefix_data)

        all_datasets.append(dataset)

--- a/src/llmtuner/dsets/utils.py
+++ b/src/llmtuner/dsets/utils.py
@@ -19,7 +19,8 @@ def split_dataset(
                dataset = dataset.shuffle(buffer_size=data_args.buffer_size, seed=training_args.seed)
                return {"train_dataset": train_set, "eval_dataset": val_set}
            else:
-                dataset = dataset.train_test_split(test_size=data_args.val_size, seed=training_args.seed)
+                val_size = int(data_args.val_size) if data_args.val_size > 1 else data_args.val_size
+                dataset = dataset.train_test_split(test_size=val_size, seed=training_args.seed)
                return {"train_dataset": dataset["train"], "eval_dataset": dataset["test"]}
        else:
            if data_args.streaming: