diff --git a/src/llamafactory/data/processors/supervised.py b/src/llamafactory/data/processors/supervised.py
index 90da57a1..6b3a4562 100644
--- a/src/llamafactory/data/processors/supervised.py
+++ b/src/llamafactory/data/processors/supervised.py
@@ -68,7 +68,7 @@ def _encode_supervised_example(
                 )
                 index += 1
             message["content"] = content.replace("<|placeholder|>", "<|image_pad|>")
-    if processor is not None and not hasattr(processor, "image_seq_length"):  # llava-like models
+    elif processor is not None and not hasattr(processor, "image_seq_length"):  # llava-like models
         prompt[0]["content"] = template.image_token + prompt[0]["content"]
 
     messages = prompt + response
@@ -146,6 +146,7 @@ def preprocess_supervised_dataset(
             response=examples["response"][i],
             system=examples["system"][i],
             tools=examples["tools"][i],
+            images=examples["images"][i],
             template=template,
             tokenizer=tokenizer,
             processor=processor,