alter rewards data type

2025-12-16 20:00:36 +08:00 · 2023-06-02 14:19:51 +08:00
parent e6126244c1
commit 50d9a20f81
12 changed files with 40 additions and 50 deletions
--- a/src/train_ppo.py
+++ b/src/train_ppo.py
@@ -70,7 +70,7 @@ def main():
    ppo_trainer.save_model()
    ppo_trainer.save_state() # must be after save_model
    if ppo_trainer.is_world_process_zero() and model_args.plot_loss:
-        plot_loss(training_args, keys=["loss", "reward"])
+        plot_loss(training_args.output_dir, keys=["loss", "reward"])


 def _mp_fn(index):