support quantization in export model

2025-12-15 03:10:35 +08:00 · 2023-12-15 23:44:50 +08:00
parent 87ef3f47b5
commit 3524aa1e58
9 changed files with 120 additions and 32 deletions
--- a/src/llmtuner/model/loader.py
+++ b/src/llmtuner/model/loader.py
@@ -62,7 +62,7 @@ def load_model_and_tokenizer(
    patcher.configure_rope(config, model_args, is_trainable)
    patcher.configure_flashattn(config_kwargs, model_args)
    patcher.configure_longlora(config, model_args, is_trainable)
-    patcher.configure_quantization(config, config_kwargs, model_args)
+    patcher.configure_quantization(config, config_kwargs, tokenizer, model_args, finetuning_args)

    model = AutoModelForCausalLM.from_pretrained(
        model_args.model_name_or_path,