Merge pull request #6052 from hiyouga/hiyouga-patch-1

[trainer] fix DPO metrics Former-commit-id: 94add263fe874d2be1b37110faf5da7a5096df6d
2026-04-30 15:48:54 +08:00 · 2024-11-16 16:20:12 +08:00
parent ae56c3cf49 089e4d9e96
commit 310c107d56
1 changed files with 4 additions and 4 deletions
--- a/src/llamafactory/train/dpo/trainer.py
+++ b/src/llamafactory/train/dpo/trainer.py
@@ -255,10 +255,10 @@ class CustomDPOTrainer(DPOTrainer):
        metrics[f"{prefix}rewards/rejected"] = rejected_rewards.mean().item()
        metrics[f"{prefix}rewards/accuracies"] = (chosen_rewards > rejected_rewards).float().mean().item()
        metrics[f"{prefix}rewards/margins"] = (chosen_rewards - rejected_rewards).mean().item()
-        metrics[f"{prefix}logps/rejected"] = policy_chosen_logps.mean().item()
-        metrics[f"{prefix}logps/chosen"] = policy_rejected_logps.mean().item()
-        metrics[f"{prefix}logits/rejected"] = policy_chosen_logits.mean().item()
-        metrics[f"{prefix}logits/chosen"] = policy_rejected_logits.mean().item()
+        metrics[f"{prefix}logps/chosen"] = policy_chosen_logps.mean().item()
+        metrics[f"{prefix}logps/rejected"] = policy_rejected_logps.mean().item()
+        metrics[f"{prefix}logits/chosen"] = policy_chosen_logits.mean().item()
+        metrics[f"{prefix}logits/rejected"] = policy_rejected_logits.mean().item()
        if self.loss_type == "orpo":
            metrics[f"{prefix}sft_loss"] = sft_loss.mean().item()
            metrics[f"{prefix}odds_ratio_loss"] = ((losses - sft_loss) / self.beta).mean().item()