LLaMA-Factory

mirror of https://github.com/hiyouga/LLaMA-Factory.git synced 2026-07-31 21:26:09 +08:00

Author	SHA1	Message	Date
hiyouga	60aea7521b	ppo support rm server Former-commit-id: 20b0edf16f5b42cb2c4a795674647afb68cb3a4a	2023-12-03 21:38:51 +08:00
hiyouga	29545d0e5e	implement rm server #1543 Former-commit-id: 2e5bb6888c86079493456c2ddd525f8c52b9963e	2023-12-03 20:52:54 +08:00
hiyouga	99ceee840e	fix #1597 Former-commit-id: d77a3a79a0e854803a57af8ac6a7246691f69f70	2023-11-30 21:47:06 +08:00
hiyouga	8ed68301e3	fix #1668 Former-commit-id: bccc71259e703ca1e1d88169e385a026c4efa92e	2023-11-30 21:02:00 +08:00
hiyouga	0e6f4f981e	fix #1658 Former-commit-id: 3126687c4820c34daa6a2e9e3bf9065ad59e92dc	2023-11-28 20:57:24 +08:00
hiyouga	28258aecd2	update ppo trainer Former-commit-id: caa525a5c6f228b9ad71387d1fe4f1c2ffa2479e	2023-11-20 21:39:15 +08:00
hoshi-hiyouga	e585950c54	Merge pull request #1553 from hannlp/hans Change the default argument settings for PPO training Former-commit-id: 1b64678fa4979485f67c3bb1420dfdff6fcbc6e7	2023-11-20 20:32:55 +08:00
hiyouga	adf2730d1d	fix #1567 Former-commit-id: 8c01ffe8d277d49a413571e0669f460c8d0802bf	2023-11-20 18:46:36 +08:00
Yuchen Han	6af7107938	Update workflow.py Former-commit-id: f70b7ffe6442217a222e0ef797c407f259a13886	2023-11-17 00:16:27 -08:00
hiyouga	de3a84ac59	fix rlhf callback Former-commit-id: f5485452d660caef56474cb7dc37abbe4f34599e	2023-11-16 03:26:19 +08:00
hiyouga	f81a8a5e5c	fix import bug Former-commit-id: 2356029cdd120d5f7bf630b80681ce8c53bff90d	2023-11-16 02:27:03 +08:00
hiyouga	7a3a0144a5	support full-parameter PPO Former-commit-id: 4af967d69475e1c9fdf1a7983cd6b83bd431abff	2023-11-16 02:08:04 +08:00
hiyouga	09a4474e7f	disentangle model from tuner and rename modules Former-commit-id: 02cbf91e7e424f8379c1fed01b82a5f7a83b6947	2023-11-15 16:29:09 +08:00

13 Commits