[v1] model loader (#9613)

2026-07-28 19:56:13 +08:00 · 2025-12-14 11:50:52 +08:00
parent fdd24276ed
commit aeda079014
27 changed files with 449 additions and 305 deletions
--- a/tests_v1/plugins/data_plugins/test_converter.py
+++ b/tests_v1/plugins/data_plugins/test_converter.py
@@ -24,7 +24,7 @@ from llamafactory.v1.plugins.data_plugins.converter import DataConverterPlugin

@pytest.mark.parametrize("num_samples", [16])
 def test_alpaca_converter(num_samples: int):
-    data_args = DataArguments(dataset="llamafactory/v1-sft-demo/dataset_info.yaml")
+    data_args = DataArguments(dataset="llamafactory/v1-dataset-info/tiny-supervised-dataset.yaml")
    data_engine = DataEngine(data_args)
    original_data = load_dataset("llamafactory/tiny-supervised-dataset", split="train")
    indexes = random.choices(range(len(data_engine)), k=num_samples)
@@ -54,6 +54,8 @@ def test_sharegpt_converter():
        "conversations": [
            {"from": "system", "value": "System"},
            {"from": "human", "value": "User"},
+            {"from": "function_call", "value": "Tool"},
+            {"from": "observation", "value": "Observation"},
            {"from": "gpt", "value": "Assistant"},
        ]
    }
@@ -61,6 +63,8 @@ def test_sharegpt_converter():
        "messages": [
            {"content": [{"type": "text", "value": "System"}], "loss_weight": 0.0, "role": "system"},
            {"content": [{"type": "text", "value": "User"}], "loss_weight": 0.0, "role": "user"},
+            {"content": [{"type": "tool_calls", "value": "Tool"}], "loss_weight": 1.0, "role": "assistant"},
+            {"content": [{"type": "text", "value": "Observation"}], "loss_weight": 0.0, "role": "tool"},
            {"content": [{"type": "text", "value": "Assistant"}], "loss_weight": 1.0, "role": "assistant"},
        ]
    }
@@ -69,7 +73,7 @@ def test_sharegpt_converter():

@pytest.mark.parametrize("num_samples", [16])
 def test_pair_converter(num_samples: int):
-    data_args = DataArguments(dataset="llamafactory/tiny-preference-dataset/dataset_info.yaml")
+    data_args = DataArguments(dataset="llamafactory/v1-dataset-info/orca-dpo-pairs.yaml")
    data_engine = DataEngine(data_args)
    original_data = load_dataset("HuggingFaceH4/orca_dpo_pairs", split="train_prefs")
    indexes = random.choices(range(len(data_engine)), k=num_samples)
@@ -112,7 +116,7 @@ def test_pair_converter(num_samples: int):
                },
            ],
        }
-        assert data_engine[index] == {"_dataset_name": "dpo_zh_demo", **expected_data}
+        assert data_engine[index] == {"_dataset_name": "tiny_dataset", **expected_data}


 if __name__ == "__main__":