[trainer] fix pt loss (#7748)

* fix pt loss * robust * fix * test
2025-12-29 18:20:35 +08:00 · 2025-04-17 03:15:35 +08:00
parent a0818eae58
commit 8208cbf1dc
10 changed files with 34 additions and 34 deletions
--- a/src/llamafactory/train/sft/trainer.py
+++ b/src/llamafactory/train/sft/trainer.py
@@ -60,6 +60,8 @@ class CustomSeq2SeqTrainer(Seq2SeqTrainer):

        super().__init__(**kwargs)
        if processor is not None:
+            # avoid wrong loss under gradient accumulation
+            # https://github.com/huggingface/transformers/pull/36044#issuecomment-2746657112
            self.model_accepts_loss_kwargs = False

        self.finetuning_args = finetuning_args