fix incorrect loss value for vlms

2025-12-18 04:40:35 +08:00 · 2024-10-30 08:56:46 +00:00
parent 0c22da4f1c
commit 30567a1487
12 changed files with 48 additions and 22 deletions
--- a/src/llamafactory/train/dpo/trainer.py
+++ b/src/llamafactory/train/dpo/trainer.py
@@ -101,7 +101,7 @@ class CustomDPOTrainer(DPOTrainer):
            self.callback_handler.add_callback(PissaConvertCallback)

        if finetuning_args.use_badam:
-            from badam import BAdamCallback, clip_grad_norm_old_version
+            from badam import BAdamCallback, clip_grad_norm_old_version  # type: ignore

            self.accelerator.clip_grad_norm_ = MethodType(clip_grad_norm_old_version, self.accelerator)
            self.add_callback(BAdamCallback)
@@ -274,7 +274,7 @@ class CustomDPOTrainer(DPOTrainer):
        https://github.com/huggingface/transformers/blob/v4.46.0/src/transformers/trainer.py#L3605
        """
        loss = super().compute_loss(model, inputs, return_outputs)
-        if kwargs.pop("num_items_in_batch", False) and is_transformers_version_equal_to_4_46():
+        if is_transformers_version_equal_to_4_46() and kwargs.pop("num_items_in_batch", False):
            loss /= self.args.gradient_accumulation_steps

        return loss
--- a/src/llamafactory/train/kto/trainer.py
+++ b/src/llamafactory/train/kto/trainer.py
@@ -96,7 +96,7 @@ class CustomKTOTrainer(KTOTrainer):
            self.add_callback(SaveProcessorCallback(processor))

        if finetuning_args.use_badam:
-            from badam import BAdamCallback, clip_grad_norm_old_version
+            from badam import BAdamCallback, clip_grad_norm_old_version  # type: ignore

            self.accelerator.clip_grad_norm_ = MethodType(clip_grad_norm_old_version, self.accelerator)
            self.add_callback(BAdamCallback)
@@ -247,7 +247,7 @@ class CustomKTOTrainer(KTOTrainer):
        https://github.com/huggingface/transformers/blob/v4.46.0/src/transformers/trainer.py#L3605
        """
        loss = super().compute_loss(model, inputs, return_outputs)
-        if kwargs.pop("num_items_in_batch", False) and is_transformers_version_equal_to_4_46():
+        if is_transformers_version_equal_to_4_46() and kwargs.pop("num_items_in_batch", False):
            loss /= self.args.gradient_accumulation_steps

        return loss
--- a/src/llamafactory/train/ppo/trainer.py
+++ b/src/llamafactory/train/ppo/trainer.py
@@ -181,7 +181,7 @@ class CustomPPOTrainer(PPOTrainer, Trainer):
            self.add_callback(SaveProcessorCallback(processor))

        if finetuning_args.use_badam:
-            from badam import BAdamCallback, clip_grad_norm_old_version
+            from badam import BAdamCallback, clip_grad_norm_old_version  # type: ignore

            self.accelerator.clip_grad_norm_ = MethodType(clip_grad_norm_old_version, self.accelerator)
            self.add_callback(BAdamCallback)
--- a/src/llamafactory/train/pt/trainer.py
+++ b/src/llamafactory/train/pt/trainer.py
@@ -19,6 +19,7 @@ from transformers import Trainer
 from typing_extensions import override

 from ...extras.logging import get_logger
+from ...extras.packages import is_transformers_version_equal_to_4_46
 from ..callbacks import PissaConvertCallback, SaveProcessorCallback
 from ..trainer_utils import create_custom_optimizer, create_custom_scheduler

@@ -51,7 +52,7 @@ class CustomTrainer(Trainer):
            self.add_callback(PissaConvertCallback)

        if finetuning_args.use_badam:
-            from badam import BAdamCallback, clip_grad_norm_old_version
+            from badam import BAdamCallback, clip_grad_norm_old_version  # type: ignore

            self.accelerator.clip_grad_norm_ = MethodType(clip_grad_norm_old_version, self.accelerator)
            self.add_callback(BAdamCallback)
@@ -68,3 +69,15 @@ class CustomTrainer(Trainer):
    ) -> "torch.optim.lr_scheduler.LRScheduler":
        create_custom_scheduler(self.args, num_training_steps, optimizer)
        return super().create_scheduler(num_training_steps, optimizer)
+
+    @override
+    def compute_loss(self, model, inputs, return_outputs=False, **kwargs):
+        r"""
+        Fixes the loss value for transformers 4.46.0.
+        https://github.com/huggingface/transformers/blob/v4.46.0/src/transformers/trainer.py#L3605
+        """
+        loss = super().compute_loss(model, inputs, return_outputs, **kwargs)
+        if is_transformers_version_equal_to_4_46() and not getattr(self, "model_accepts_loss_kwargs", False):
+            loss /= self.args.gradient_accumulation_steps  # other model should not scale the loss
+
+        return loss
--- a/src/llamafactory/train/rm/trainer.py
+++ b/src/llamafactory/train/rm/trainer.py
@@ -60,7 +60,7 @@ class PairwiseTrainer(Trainer):
            self.add_callback(PissaConvertCallback)

        if finetuning_args.use_badam:
-            from badam import BAdamCallback, clip_grad_norm_old_version
+            from badam import BAdamCallback, clip_grad_norm_old_version  # type: ignore

            self.accelerator.clip_grad_norm_ = MethodType(clip_grad_norm_old_version, self.accelerator)
            self.add_callback(BAdamCallback)
@@ -100,7 +100,7 @@ class PairwiseTrainer(Trainer):

        loss = -torch.nn.functional.logsigmoid(chosen_scores.float() - rejected_scores.float()).mean()

-        if kwargs.pop("num_items_in_batch", False) and is_transformers_version_equal_to_4_46():
+        if is_transformers_version_equal_to_4_46() and kwargs.pop("num_items_in_batch", False):
            loss /= self.args.gradient_accumulation_steps  # fixes the loss value for transformers 4.46.0

        if return_outputs:
--- a/src/llamafactory/train/sft/trainer.py
+++ b/src/llamafactory/train/sft/trainer.py
@@ -27,6 +27,7 @@ from typing_extensions import override

 from ...extras.constants import IGNORE_INDEX
 from ...extras.logging import get_logger
+from ...extras.packages import is_transformers_version_equal_to_4_46
 from ..callbacks import PissaConvertCallback, SaveProcessorCallback
 from ..trainer_utils import create_custom_optimizer, create_custom_scheduler

@@ -60,7 +61,7 @@ class CustomSeq2SeqTrainer(Seq2SeqTrainer):
            self.add_callback(PissaConvertCallback)

        if finetuning_args.use_badam:
-            from badam import BAdamCallback, clip_grad_norm_old_version
+            from badam import BAdamCallback, clip_grad_norm_old_version  # type: ignore

            self.accelerator.clip_grad_norm_ = MethodType(clip_grad_norm_old_version, self.accelerator)
            self.add_callback(BAdamCallback)
@@ -78,6 +79,18 @@ class CustomSeq2SeqTrainer(Seq2SeqTrainer):
        create_custom_scheduler(self.args, num_training_steps, optimizer)
        return super().create_scheduler(num_training_steps, optimizer)

+    @override
+    def compute_loss(self, model, inputs, return_outputs=False, **kwargs):
+        r"""
+        Fixes the loss value for transformers 4.46.0.
+        https://github.com/huggingface/transformers/blob/v4.46.0/src/transformers/trainer.py#L3605
+        """
+        loss = super().compute_loss(model, inputs, return_outputs, **kwargs)
+        if is_transformers_version_equal_to_4_46() and not getattr(self, "model_accepts_loss_kwargs", False):
+            loss /= self.args.gradient_accumulation_steps  # other model should not scale the loss
+
+        return loss
+
    @override
    def prediction_step(
        self,