LLaMA-Factory

mirror of https://github.com/hiyouga/LLaMA-Factory.git synced 2025-08-03 20:22:49 +08:00

Author	SHA1	Message	Date
hiyouga	6a71361a54	remove PeftTrainer Former-commit-id: b218c271edfb07006ddc34b1aca404088de6c528	2023-09-10 22:23:23 +08:00
hiyouga	9ed4bb63d4	change to right-padding, update reward score #803 Former-commit-id: 8ea32e4046d75ddfa9517669e9de9f48fea720c6	2023-09-08 20:04:31 +08:00
hiyouga	f74b980650	fix baichuan templates Former-commit-id: 85b1f6632a752029dabdaed87c58986deb3a6b1d	2023-09-07 18:54:14 +08:00
hiyouga	a4fd976048	refactor dataset_attr, add eos in pt, fix #757 Former-commit-id: a9d1fb72f791ae57a4d12f4e3a7e2abccf6a7077	2023-09-01 19:00:45 +08:00
hiyouga	b88f0b396c	support ppo score norm (trl 0.5.1.dev required) Former-commit-id: 53e33418d02ee0f34c783e30ae510b811308c598	2023-08-18 12:02:42 +08:00
hiyouga	caf4a61e21	fix ChatGLM2 ppo #527 #528 Former-commit-id: 9f4c2adc9a9ca8e458d3868805e077182e0d336a	2023-08-18 00:34:59 +08:00
hiyouga	6c9b035c0e	web UI integrating RLHF Former-commit-id: ec94274ca155300aee27621c018dd1bbaf78194b	2023-08-14 10:48:47 +08:00
hiyouga	abdfa26d06	support DPO training (2305.18290) Former-commit-id: 3ec4351cfdaf2aefcc7d13345e19d79874ed61d3	2023-08-11 03:02:53 +08:00
hiyouga	6404167ab7	support val set in streaming mode Former-commit-id: d86ea314a197fd821770d895e988c48d46679047	2023-08-09 23:00:26 +08:00
hiyouga	4242897b78	modify code structure Former-commit-id: 08f180e78862cad902b6cdbbd8c86e39b5cacf8a	2023-08-02 23:17:36 +08:00
hiyouga	ab739e72ea	fix memory leak of PPO trainer Former-commit-id: 286f7be346dbea630da1642bbc9e98bcad3145b4	2023-08-02 17:41:34 +08:00
hiyouga	e80b75b560	support streaming data, fix #284 #274 #268 Former-commit-id: 0411a4b3e122e7907441bc7a64b004948741a620	2023-07-31 23:33:00 +08:00
hiyouga	091805d38e	release v0.1.0 Former-commit-id: f8193e8009451cf569a28a10eb4bd88831844441	2023-07-18 00:18:25 +08:00
hiyouga	a696148d6b	modity code structure Former-commit-id: f75137661358f9070bc70c341dfa2cc5fd69cf94	2023-07-15 16:54:28 +08:00

14 Commits