From a7bf0b85d7d7ec81837f24ee6c53d981f8e2d59b Mon Sep 17 00:00:00 2001
From: hiyouga <hiyouga@buaa.edu.cn>
Date: Fri, 17 Nov 2023 22:21:29 +0800
Subject: [PATCH] fix quantization

Former-commit-id: 8268aefe8fba268065e24ffe159a9c49f7c6f3a5
---
 src/llmtuner/model/loader.py | 7 +------
 1 file changed, 1 insertion(+), 6 deletions(-)

diff --git a/src/llmtuner/model/loader.py b/src/llmtuner/model/loader.py
index 4d2e1974..20b9b5d4 100644
--- a/src/llmtuner/model/loader.py
+++ b/src/llmtuner/model/loader.py
@@ -168,17 +168,12 @@ def load_model_and_tokenizer(
         config_kwargs["device_map"] = {"": get_current_device()}
         logger.info("Quantizing model to {} bit.".format(model_args.quantization_bit))
 
-    if is_deepspeed_zero3_enabled() or getattr(config, "model_type", None) == "chatglm":
-        low_cpu_mem_usage = False
-    else:
-        low_cpu_mem_usage = True
-
     # Load pre-trained models (without valuehead)
     model = AutoModelForCausalLM.from_pretrained(
         model_to_load,
         config=config,
         torch_dtype=model_args.compute_dtype,
-        low_cpu_mem_usage=low_cpu_mem_usage,
+        low_cpu_mem_usage=(not is_deepspeed_zero3_enabled()),
         **config_kwargs
     )