LLaMA-Factory

mirror of https://github.com/hiyouga/LLaMA-Factory.git synced 2026-06-22 23:28:57 +08:00

Author	SHA1	Message	Date
hiyouga	f8497921fe	fix #4242 Former-commit-id: `577de2fa07`	2024-06-12 16:50:11 +08:00
Arthur Kim	bebca6d01c	Support vllm==0.5.0 Former-commit-id: `d65a3f7cb6`	2024-06-12 16:49:12 +09:00
ancv	045eb155a2	implement efficient packing without cross-contamination attention Former-commit-id: `b2c367bc61`	2024-06-12 11:56:01 +07:00
hoshi-hiyouga	fecb9c9a76	Merge pull request #4204 from dignfei/main fixbug：llama3在增量预训练时应该使用<\|end_of_text\|>标识文本的结束 Former-commit-id: `9049aab911`	2024-06-11 17:06:10 +08:00
hoshi-hiyouga	bf3de9bfe8	Update pretrain.py Former-commit-id: `0c29233237`	2024-06-11 17:02:14 +08:00
hiyouga	8c574eb3cb	fix deepspeed version Former-commit-id: `cca6f35108`	2024-06-11 16:52:36 +08:00
d	da39715085	经过大量的增量预训练，进行对比试验，发现这个bug：llama3在预训练时使用的tokenizer.eos_toke是'<\|end_of_text\|>' ，这里在每条数据后面也得用这个，而不是'<\|eot_id\|>'，否则很容易导致严重的性能下降 Former-commit-id: `6979f3f848`	2024-06-11 16:23:40 +08:00
hiyouga	5834651c4a	fix #4198 Former-commit-id: `89f2bd8c8c`	2024-06-11 15:38:38 +08:00
hiyouga	53de7f7cc3	tiny fix Former-commit-id: `90e14a960d`	2024-06-11 12:48:53 +08:00
hiyouga	e3baa5aa08	tiny fix Former-commit-id: `3f24337a8a`	2024-06-11 01:04:16 +08:00
hiyouga	d6632fefc9	set dev version Former-commit-id: `91e62a098f`	2024-06-11 00:50:53 +08:00
hiyouga	75e1bbf128	release v0.8.1 Former-commit-id: `2b6ebd6b51`	2024-06-11 00:44:26 +08:00
hiyouga	2f164c2c41	fix #4160 The split heads should be concatenated in dim=2 Former-commit-id: `a793e8456b`	2024-06-11 00:37:17 +08:00
hiyouga	144544cd37	update evaluator Former-commit-id: `0012762b04`	2024-06-10 23:56:00 +08:00
hiyouga	3b244a69dc	fix #2666 Former-commit-id: `c907d81667`	2024-06-10 21:24:15 +08:00
mMrBun	b6d63b3324	Optimize the handling of QWEN2 in scenarios involving multiple tool calls. Former-commit-id: `950e360ca0`	2024-06-10 02:00:14 +08:00
mMrBun	3f11ab800f	Removed unnecessary comments. Former-commit-id: `6ed0b0c800`	2024-06-09 18:25:22 +08:00
mMrBun	daf472994d	Merge branch 'hiyouga:main' into main Former-commit-id: `0f2609ce19`	2024-06-09 18:17:24 +08:00
mMrBun	18a86ea104	Implemented the tool_formatter and tool_extractor for glm4 tool_format Former-commit-id: `cb1cbcb293`	2024-06-09 18:16:15 +08:00
hiyouga	1a261add61	fix llamafactory-cli env Former-commit-id: `972ec9c668`	2024-06-08 07:15:45 +08:00
hiyouga	de3400a521	set dev version Former-commit-id: `3ac11e77cc`	2024-06-08 06:46:09 +08:00
hiyouga	ce40d12692	release v0.8.0 Former-commit-id: `5aa4ce4756`	2024-06-08 05:20:54 +08:00
hiyouga	4f0ce9be4e	reorganize adapter code Former-commit-id: `54cd743ebf`	2024-06-08 00:47:23 +08:00
hoshi-hiyouga	bad35d1730	fix #4139 Former-commit-id: `cfd62283a9`	2024-06-08 00:45:02 +08:00
hiyouga	a8318723a4	add resume args in webui Former-commit-id: `06e5d136a4`	2024-06-08 00:22:16 +08:00
hiyouga	d79222894c	fix #4137 Former-commit-id: `8bf9da659c`	2024-06-07 19:16:06 +08:00
hiyouga	ca9468ff04	tiny fix Former-commit-id: `f8d8690bf4`	2024-06-07 05:19:21 +08:00
hiyouga	4f3c89a6eb	fix ppo trainer save zero3 model accelerator.get_state_dict(ds_model) should be called at all ranks Former-commit-id: `4489d73ac7`	2024-06-07 05:14:19 +08:00
hiyouga	f76d427332	fix ppo in trl 0.8.6 Former-commit-id: `2702d7e952`	2024-06-07 04:48:29 +08:00
hiyouga	d3196318be	fix #4120 Former-commit-id: `f9e818d79c`	2024-06-07 04:18:05 +08:00
hiyouga	c6f5f69644	update data processors Former-commit-id: `ccc8b64cc2`	2024-06-07 04:15:40 +08:00
hoshi-hiyouga	4953ded639	Merge pull request #4009 from AlongWY/main supervised packing with greedy knapsack algorithm Former-commit-id: `181dbb0d05`	2024-06-07 03:48:46 +08:00
hoshi-hiyouga	e3ef239bc0	Update supervised.py Former-commit-id: `c09ad8bab3`	2024-06-07 03:42:08 +08:00
hoshi-hiyouga	fd7bd911a6	Update supervised.py Former-commit-id: `788e8232fc`	2024-06-07 03:38:23 +08:00
hoshi-hiyouga	21df5f0bd0	Update supervised.py Former-commit-id: `8cecade708`	2024-06-07 03:38:04 +08:00
hiyouga	8a0263551d	add qwen2 models Former-commit-id: `8e95648850`	2024-06-07 00:22:57 +08:00
hiyouga	8da149ba40	rename files Former-commit-id: `74f96efef9`	2024-06-07 00:09:06 +08:00
hiyouga	fd2c64315b	add DISABLE_TORCHRUN option Former-commit-id: `45d8be8f93`	2024-06-06 23:44:58 +08:00
hoshi-hiyouga	77b70664e5	Merge pull request #4082 from MengqingCao/bugfix Fix #4077 Former-commit-id: `55c18c49b0`	2024-06-06 23:38:40 +08:00
hoshi-hiyouga	9bebdeabda	Update cli.py Former-commit-id: `751dd77bc0`	2024-06-06 23:38:09 +08:00
hiyouga	368695483d	fix ppo+zero3 #3108 Former-commit-id: `76c61905b2`	2024-06-06 23:30:07 +08:00
hiyouga	6cbc66a602	fix torch gc Former-commit-id: `451b6693c0`	2024-06-06 20:30:25 +08:00
hiyouga	e0aadd4b34	fix ppo dataset bug #4012 Former-commit-id: `149610c636`	2024-06-06 19:03:20 +08:00
hiyouga	e898d8bbc4	update trainers Former-commit-id: `fad2591e31`	2024-06-06 18:45:49 +08:00
hiyouga	f2edacb02d	fix base64 image read #4061 Former-commit-id: `67aa78cde0`	2024-06-06 17:29:19 +08:00
hiyouga	cceff9f520	lora modules: all by default Former-commit-id: `cae4737907`	2024-06-06 03:53:28 +08:00
hiyouga	679810a3d2	add codestral 22B Former-commit-id: `c23cc63d3d`	2024-06-06 03:42:50 +08:00
hiyouga	8f25af89b6	lint Former-commit-id: `7daf8366db`	2024-06-06 03:33:44 +08:00
hoshi-hiyouga	229794a148	Merge pull request #4066 from injet-zhou/main add throughput entry to training log Former-commit-id: `f2580ad403`	2024-06-06 03:32:04 +08:00
hoshi-hiyouga	d31c9c73c7	Merge pull request #4080 from MengqingCao/npu Add npu option for model exporting Former-commit-id: `ca459f67eb`	2024-06-06 03:15:44 +08:00

... 13 14 15 16 17 ...

1887 Commits