[v1] add deepspeed zero3 trigger for low memory usage weight loading (#10300)

2026-04-27 18:29:08 +08:00 · 2026-04-21 14:09:52 +08:00
parent f5d739b132
commit 28a6ea1cdc
13 changed files with 160 additions and 18 deletions
--- a/src/llamafactory/v1/config/training_args.py
+++ b/src/llamafactory/v1/config/training_args.py
@@ -54,7 +54,7 @@ class TrainingArguments:
        metadata={"help": "Maximum gradient norm for training."},
    )
    bf16: bool = field(
-        default=False,
+        default=True,
        metadata={"help": "Use bf16 for training."},
    )
    batching_strategy: BatchingStrategy = field(
@@ -66,7 +66,7 @@ class TrainingArguments:
        metadata={"help": "Number of workers for batching."},
    )
    enable_activation_checkpointing: bool = field(
-        default=False,
+        default=True,
        metadata={"help": "Enable activation checkpointing for training."},
    )
    dist_config: PluginConfig | None = field(