[model] ktransformers qwen3 support (#9485)

Co-authored-by: unknown <xiongchenhui@hisense.ad>
2026-02-06 14:02:28 +08:00 · 2025-11-13 20:09:44 +08:00
parent 0aa4a051af
commit 10a446e373
1 changed files with 2 additions and 0 deletions
--- a/src/llamafactory/model/model_utils/ktransformers.py
+++ b/src/llamafactory/model/model_utils/ktransformers.py
@@ -34,6 +34,7 @@ if KT_AVAILABLE:
    from ktransformers.models.modeling_llama import LlamaForCausalLM
    from ktransformers.models.modeling_mixtral import MixtralForCausalLM
    from ktransformers.models.modeling_qwen2_moe import Qwen2MoeForCausalLM
    from ktransformers.models.modeling_qwen3_moe import Qwen3MoeForCausalLM
    from ktransformers.optimize.optimize import optimize_and_load_gguf
    from ktransformers.server.config.config import Config
    from ktransformers.sft.lora import inject_lora_layer
@@ -71,6 +72,7 @@ def load_kt_pretrained_model(config: "PretrainedConfig", model_args: "ModelArgum
        "DeepseekV2ForCausalLM": DeepseekV2ForCausalLM,
        "DeepseekV3ForCausalLM": DeepseekV3ForCausalLM,
        "Qwen2MoeForCausalLM": Qwen2MoeForCausalLM,
        "Qwen3MoeForCausalLM": Qwen3MoeForCausalLM,
        "LlamaForCausalLM": LlamaForCausalLM,
        "MixtralForCausalLM": MixtralForCausalLM,
    }