6 kuukautta sitten · 3693028340
--- a/aphrodite/endpoints/chat_utils.py
+++ b/aphrodite/endpoints/chat_utils.py
@@ -3,7 +3,8 @@ import tempfile
 
				 from dataclasses import dataclass
			
 
				 from functools import lru_cache
			
 
				 from pathlib import Path
			
 
				-from typing import Any, Awaitable, Iterable, List, Optional, Tuple, Union, cast
			
 
				+from typing import (Any, Awaitable, Iterable, List, Literal, Optional, Tuple,
			
 
				+                    Union, cast)
			
 
				 
			
 
				 import requests
			
 
				 from loguru import logger
			
@@ -23,10 +24,25 @@ from typing_extensions import Required, TypedDict
 
				 
			
 
				 from aphrodite.common.config import ModelConfig
			
 
				 from aphrodite.multimodal import MultiModalDataDict
			
 
				-from aphrodite.multimodal.utils import async_get_and_parse_image
			
 
				+from aphrodite.multimodal.utils import (async_get_and_parse_audio,
			
 
				+                                        async_get_and_parse_image)
			
 
				 from aphrodite.transformers_utils.tokenizer import AnyTokenizer
			
 
				 
			
 
				 
			
 
				+class AudioURL(TypedDict, total=False):
			
 
				+    url: Required[str]
			
 
				+    """
			
 
				+    Either a URL of the audio or a data URL with base64 encoded audio data.
			
 
				+    """
			
 
				+
			
 
				+
			
 
				+class ChatCompletionContentPartAudioParam(TypedDict, total=False):
			
 
				+    audio_url: Required[AudioURL]
			
 
				+
			
 
				+    type: Required[Literal["audio_url"]]
			
 
				+    """The type of the content part."""
			
 
				+
			
 
				+
			
 
				 class CustomChatCompletionContentPartParam(TypedDict, total=False):
			
 
				     __pydantic_config__ = ConfigDict(extra="allow")  # type: ignore
			
 
				 
			
@@ -35,6 +51,7 @@ class CustomChatCompletionContentPartParam(TypedDict, total=False):
 
				 
			
 
				 
			
 
				 ChatCompletionContentPartParam = Union[OpenAIChatCompletionContentPartParam,
			
 
				+                                       ChatCompletionContentPartAudioParam,
			
 
				                                        CustomChatCompletionContentPartParam]
			
 
				 
			
 
				 
			
@@ -103,35 +120,41 @@ def load_chat_template(
 
				 
			
 
				 
			
 
				 @lru_cache(maxsize=None)
			
 
				-def _image_token_str(model_config: ModelConfig,
			
 
				-                     tokenizer: PreTrainedTokenizer) -> Optional[str]:
			
 
				+def _mm_token_str(model_config: ModelConfig, tokenizer: PreTrainedTokenizer,
			
 
				+                  modality: Literal["image", "audio"]) -> Optional[str]:
			
 
				     # TODO: Let user specify how to insert image tokens into prompt
			
 
				     # (similar to chat template)
			
 
				-    model_type = model_config.hf_config.model_type
			
 
				-    if model_type == "phi3_v":
			
 
				-        # Workaround since this token is not defined in the tokenizer
			
 
				-        return "<|image_1|>"
			
 
				-    if model_type == "minicpmv":
			
 
				-        return "(<image>./</image>)"
			
 
				-    if model_type in ("blip-2", "chatglm", "fuyu", "paligemma"):
			
 
				-        # These models do not use image tokens in the prompt
			
 
				-        return None
			
 
				-    if model_type.startswith("llava"):
			
 
				-        return tokenizer.decode(model_config.hf_config.image_token_index)
			
 
				-    if model_type in ("chameleon", "internvl_chat"):
			
 
				-        return "<image>"
			
 
				-
			
 
				-    raise TypeError(f"Unknown model type: {model_type}")
			
 
				-
			
 
				-
			
 
				-# TODO: Let user specify how to insert image tokens into prompt
			
 
				+    if modality == "image":
			
 
				+        model_type = model_config.hf_config.model_type
			
 
				+        if model_type == "phi3_v":
			
 
				+            # Workaround since this token is not defined in the tokenizer
			
 
				+            return "<|image_1|>"
			
 
				+        if model_type == "minicpmv":
			
 
				+            return "(<image>./</image>)"
			
 
				+        if model_type in ("blip-2", "chatglm", "fuyu", "paligemma"):
			
 
				+            # These models do not use image tokens in the prompt
			
 
				+            return None
			
 
				+        if model_type.startswith("llava"):
			
 
				+            return tokenizer.decode(model_config.hf_config.image_token_index)
			
 
				+        if model_type in ("chameleon", "internvl_chat"):
			
 
				+            return "<image>"
			
 
				+
			
 
				+        raise TypeError(f"Unknown model type: {model_type}")
			
 
				+    elif modality == "audio":
			
 
				+        raise TypeError("No audio models are supported yet.")
			
 
				+    else:
			
 
				+        raise TypeError(f"Unknown modality: {modality}")
			
 
				+
			
 
				+
			
 
				+# TODO: Let user specify how to insert multimodal tokens into prompt
			
 
				 # (similar to chat template)
			
 
				-def _get_full_image_text_prompt(image_token_str: str, text_prompt: str) -> str:
			
 
				-    """Combine image and text prompts for vision language model"""
			
 
				+def _get_full_multimodal_text_prompt(placeholder_token_str: str,
			
 
				+                                     text_prompt: str) -> str:
			
 
				+    """Combine multimodal prompts for a multimodal language model"""
			
 
				 
			
 
				     # NOTE: For now we assume all model architectures use the same
			
 
				-    # image + text prompt format. This may change in the future.
			
 
				-    return f"{image_token_str}\n{text_prompt}"
			
 
				+    # placeholder + text prompt format. This may change in the future.
			
 
				+    return f"{placeholder_token_str}\n{text_prompt}"
			
 
				 
			
 
				 
			
 
				 def _parse_chat_message_content_parts(
			
@@ -142,6 +165,7 @@ def _parse_chat_message_content_parts(
 
				 ) -> ChatMessageParseResult:
			
 
				     texts: List[str] = []
			
 
				     mm_futures: List[Awaitable[MultiModalDataDict]] = []
			
 
				+    modality: Literal["image", "audio"] = "image"
			
 
				 
			
 
				     for part in parts:
			
 
				         part_type = part["type"]
			
@@ -149,9 +173,10 @@ def _parse_chat_message_content_parts(
 
				             text = cast(ChatCompletionContentPartTextParam, part)["text"]
			
 
				             texts.append(text)
			
 
				         elif part_type == "image_url":
			
 
				+            modality = "image"
			
 
				             if len(mm_futures) > 0:
			
 
				                 raise NotImplementedError(
			
 
				-                    "Multiple 'image_url' input is currently not supported.")
			
 
				+                    "Multiple multimodal inputs is currently not supported.")
			
 
				 
			
 
				             image_url = cast(ChatCompletionContentPartImageParam,
			
 
				                              part)["image_url"]
			
@@ -163,21 +188,32 @@ def _parse_chat_message_content_parts(
 
				 
			
 
				             image_future = async_get_and_parse_image(image_url["url"])
			
 
				             mm_futures.append(image_future)
			
 
				+        elif part_type == "audio_url":
			
 
				+            modality = "audio"
			
 
				+            if len(mm_futures) > 0:
			
 
				+                raise NotImplementedError(
			
 
				+                    "Multiple multimodal inputs is currently not supported.")
			
 
				+
			
 
				+            audio_url = cast(ChatCompletionContentPartAudioParam,
			
 
				+                             part)["audio_url"]
			
 
				+            audio_future = async_get_and_parse_audio(audio_url["url"])
			
 
				+            mm_futures.append(audio_future)
			
 
				         else:
			
 
				             raise NotImplementedError(f"Unknown part type: {part_type}")
			
 
				 
			
 
				     text_prompt = "\n".join(texts)
			
 
				 
			
 
				     if mm_futures:
			
 
				-        image_token_str = _image_token_str(model_config, tokenizer)
			
 
				-        if image_token_str is not None:
			
 
				-            if image_token_str in text_prompt:
			
 
				+        placeholder_token_str = _mm_token_str(model_config, tokenizer,
			
 
				+                                              modality)
			
 
				+        if placeholder_token_str is not None:
			
 
				+            if placeholder_token_str in text_prompt:
			
 
				                 logger.warning(
			
 
				-                    "Detected image token string in the text prompt. "
			
 
				+                    "Detected multi-modal token string in the text prompt. "
			
 
				                     "Skipping prompt formatting.")
			
 
				             else:
			
 
				-                text_prompt = _get_full_image_text_prompt(
			
 
				-                    image_token_str=image_token_str,
			
 
				+                text_prompt = _get_full_multimodal_text_prompt(
			
 
				+                    placeholder_token_str=placeholder_token_str,
			
 
				                     text_prompt=text_prompt,
			
 
				                 )
			
 
				 
			
--- a/aphrodite/modeling/model_loader/loader.py
+++ b/aphrodite/modeling/model_loader/loader.py
@@ -37,7 +37,7 @@ from aphrodite.modeling.model_loader.weight_utils import (
 
				     safetensors_weights_iterator)
			
 
				 from aphrodite.modeling.models.interfaces import (has_inner_state,
			
 
				                                                   supports_lora,
			
 
				-                                                  supports_vision)
			
 
				+                                                  supports_multimodal)
			
 
				 from aphrodite.modeling.utils import set_weight_attrs
			
 
				 from aphrodite.platforms import current_platform
			
 
				 from aphrodite.quantization.base_config import QuantizationConfig
			
@@ -127,7 +127,7 @@ def _get_model_initialization_kwargs(
 
				             "be added in the future. If this is important to you, "
			
 
				             "please open an issue on github.")
			
 
				 
			
 
				-    if supports_vision(model_class):
			
 
				+    if supports_multimodal(model_class):
			
 
				         if multimodal_config is None:
			
 
				             raise ValueError("Provide vision related configurations "
			
 
				                              "through LLM entrypoint or engine arguments.")
			
--- a/aphrodite/modeling/models/blip2.py
+++ b/aphrodite/modeling/models/blip2.py
@@ -22,8 +22,8 @@ from aphrodite.quantization import QuantizationConfig
 
				 
			
 
				 from .blip import (BlipVisionModel, dummy_image_for_blip,
			
 
				                    get_max_blip_image_tokens)
			
 
				-from .interfaces import SupportsVision
			
 
				-from .utils import merge_vision_embeddings
			
 
				+from .interfaces import SupportsMultiModal
			
 
				+from .utils import merge_multimodal_embeddings
			
 
				 
			
 
				 _KEYS_TO_MODIFY_MAPPING = {
			
 
				     "language_model.lm_head": "lm_head",
			
@@ -458,7 +458,7 @@ def input_processor_for_blip2(ctx: InputContext, llm_inputs: LLMInputs):
 
				 @MULTIMODAL_REGISTRY.register_max_image_tokens(get_max_blip2_image_tokens)
			
 
				 @INPUT_REGISTRY.register_dummy_data(dummy_data_for_blip2)
			
 
				 @INPUT_REGISTRY.register_input_processor(input_processor_for_blip2)
			
 
				-class Blip2ForConditionalGeneration(nn.Module, SupportsVision):
			
 
				+class Blip2ForConditionalGeneration(nn.Module, SupportsMultiModal):
			
 
				 
			
 
				     def __init__(self,
			
 
				                  config: Blip2Config,
			
@@ -615,9 +615,9 @@ class Blip2ForConditionalGeneration(nn.Module, SupportsVision):
 
				             vision_embeddings = self._process_image_input(image_input)
			
 
				             inputs_embeds = self.language_model.get_input_embeddings(input_ids)
			
 
				 
			
 
				-            inputs_embeds = merge_vision_embeddings(input_ids, inputs_embeds,
			
 
				-                                                    vision_embeddings,
			
 
				-                                                    BLIP2_IMAGE_TOKEN_ID)
			
 
				+            inputs_embeds = merge_multimodal_embeddings(
			
 
				+                input_ids, inputs_embeds, vision_embeddings,
			
 
				+                BLIP2_IMAGE_TOKEN_ID)
			
 
				 
			
 
				             input_ids = None
			
 
				         else:
			
--- a/aphrodite/modeling/models/chameleon.py
+++ b/aphrodite/modeling/models/chameleon.py
@@ -34,7 +34,7 @@ from aphrodite.multimodal.image import (cached_get_tokenizer,
 
				                                         repeat_and_pad_image_tokens)
			
 
				 from aphrodite.quantization.base_config import QuantizationConfig
			
 
				 
			
 
				-from .interfaces import SupportsVision
			
 
				+from .interfaces import SupportsMultiModal
			
 
				 
			
 
				 # These configs are not part of the model config but the preprocessor
			
 
				 # and processor files, so we hardcode them in the model file for now.
			
@@ -883,7 +883,7 @@ class ChameleonModel(nn.Module):
 
				 @MULTIMODAL_REGISTRY.register_max_image_tokens(get_max_chameleon_image_tokens)
			
 
				 @INPUT_REGISTRY.register_dummy_data(dummy_data_for_chameleon)
			
 
				 @INPUT_REGISTRY.register_input_processor(input_processor_for_chameleon)
			
 
				-class ChameleonForConditionalGeneration(nn.Module, SupportsVision):
			
 
				+class ChameleonForConditionalGeneration(nn.Module, SupportsMultiModal):
			
 
				 
			
 
				     def __init__(
			
 
				         self,
			
--- a/aphrodite/modeling/models/fuyu.py
+++ b/aphrodite/modeling/models/fuyu.py
@@ -40,8 +40,8 @@ from aphrodite.multimodal.image import (cached_get_image_processor,
 
				                                         cached_get_tokenizer)
			
 
				 from aphrodite.quantization.base_config import QuantizationConfig
			
 
				 
			
 
				-from .interfaces import SupportsVision
			
 
				-from .utils import merge_vision_embeddings
			
 
				+from .interfaces import SupportsMultiModal
			
 
				+from .utils import merge_multimodal_embeddings
			
 
				 
			
 
				 # Cannot find the following 2 numbers from hf config.
			
 
				 _IMAGE_TOKEN_ID = 71011
			
@@ -207,7 +207,7 @@ def input_mapper_for_fuyu(ctx: InputContext, data: object):
 
				 @MULTIMODAL_REGISTRY.register_max_image_tokens(get_max_fuyu_image_tokens)
			
 
				 @INPUT_REGISTRY.register_dummy_data(dummy_data_for_fuyu)
			
 
				 @INPUT_REGISTRY.register_input_processor(input_processor_for_fuyu)
			
 
				-class FuyuForCausalLM(nn.Module, SupportsVision):
			
 
				+class FuyuForCausalLM(nn.Module, SupportsMultiModal):
			
 
				 
			
 
				     def __init__(self,
			
 
				                  config: FuyuConfig,
			
@@ -269,9 +269,9 @@ class FuyuForCausalLM(nn.Module, SupportsVision):
 
				         if image_input is not None:
			
 
				             vision_embeddings = self._process_image_input(image_input)
			
 
				             inputs_embeds = self.language_model.model.embed_tokens(input_ids)
			
 
				-            inputs_embeds = merge_vision_embeddings(input_ids, inputs_embeds,
			
 
				-                                                    vision_embeddings,
			
 
				-                                                    self.image_token_id)
			
 
				+            inputs_embeds = merge_multimodal_embeddings(
			
 
				+                input_ids, inputs_embeds, vision_embeddings,
			
 
				+                self.image_token_id)
			
 
				 
			
 
				         else:
			
 
				             inputs_embeds = None
			
--- a/aphrodite/modeling/models/interfaces.py
+++ b/aphrodite/modeling/models/interfaces.py
@@ -9,12 +9,15 @@ from aphrodite.common.config import (LoRAConfig, MultiModalConfig,
 
				 
			
 
				 
			
 
				 @runtime_checkable
			
 
				-class SupportsVision(Protocol):
			
 
				-    """The interface required for all vision language models (VLMs)."""
			
 
				+class SupportsMultiModal(Protocol):
			
 
				+    """
			
 
				+    The interface required for all multimodal (vision or audio) language
			
 
				+    models.
			
 
				+    """
			
 
				 
			
 
				-    supports_vision: ClassVar[Literal[True]] = True
			
 
				+    supports_multimodal: ClassVar[Literal[True]] = True
			
 
				     """
			
 
				-    A flag that indicates this model supports vision inputs.
			
 
				+    A flag that indicates this model supports multimodal inputs.
			
 
				 
			
 
				     Note:
			
 
				         There is no need to redefine this flag if this class is in the
			
@@ -28,30 +31,31 @@ class SupportsVision(Protocol):
 
				 # We can't use runtime_checkable with ClassVar for issubclass checks
			
 
				 # so we need to treat the class as an instance and use isinstance instead
			
 
				 @runtime_checkable
			
 
				-class _SupportsVisionType(Protocol):
			
 
				-    supports_vision: Literal[True]
			
 
				+class _SupportsMultiModalType(Protocol):
			
 
				+    supports_multimodal: Literal[True]
			
 
				 
			
 
				     def __call__(self, *, multimodal_config: MultiModalConfig) -> None:
			
 
				         ...
			
 
				 
			
 
				 
			
 
				 @overload
			
 
				-def supports_vision(model: Type[object]) -> TypeIs[Type[SupportsVision]]:
			
 
				+def supports_multimodal(
			
 
				+        model: Type[object]) -> TypeIs[Type[SupportsMultiModal]]:
			
 
				     ...
			
 
				 
			
 
				 
			
 
				 @overload
			
 
				-def supports_vision(model: object) -> TypeIs[SupportsVision]:
			
 
				+def supports_multimodal(model: object) -> TypeIs[SupportsMultiModal]:
			
 
				     ...
			
 
				 
			
 
				 
			
 
				-def supports_vision(
			
 
				+def supports_multimodal(
			
 
				     model: Union[Type[object], object],
			
 
				-) -> Union[TypeIs[Type[SupportsVision]], TypeIs[SupportsVision]]:
			
 
				+) -> Union[TypeIs[Type[SupportsMultiModal]], TypeIs[SupportsMultiModal]]:
			
 
				     if isinstance(model, type):
			
 
				-        return isinstance(model, _SupportsVisionType)
			
 
				+        return isinstance(model, _SupportsMultiModalType)
			
 
				 
			
 
				-    return isinstance(model, SupportsVision)
			
 
				+    return isinstance(model, SupportsMultiModal)
			
 
				 
			
 
				 
			
 
				 @runtime_checkable
			
--- a/aphrodite/modeling/models/internvl.py
+++ b/aphrodite/modeling/models/internvl.py
@@ -27,9 +27,9 @@ from aphrodite.quantization import QuantizationConfig
 
				 
			
 
				 from .clip import (dummy_image_for_clip, dummy_seq_data_for_clip,
			
 
				                    get_clip_num_patches)
			
 
				-from .interfaces import SupportsVision
			
 
				+from .interfaces import SupportsMultiModal
			
 
				 from .utils import (filter_weights, init_aphrodite_registered_model,
			
 
				-                    merge_vision_embeddings)
			
 
				+                    merge_multimodal_embeddings)
			
 
				 
			
 
				 IMG_START = '<img>'
			
 
				 IMG_END = '</img>'
			
@@ -287,7 +287,7 @@ def dummy_data_for_internvl(ctx: InputContext, seq_len: int):
 
				 @MULTIMODAL_REGISTRY.register_max_image_tokens(get_max_internvl_image_tokens)
			
 
				 @INPUT_REGISTRY.register_dummy_data(dummy_data_for_internvl)
			
 
				 @INPUT_REGISTRY.register_input_processor(input_processor_for_internvl)
			
 
				-class InternVLChatModel(nn.Module, SupportsVision):
			
 
				+class InternVLChatModel(nn.Module, SupportsMultiModal):
			
 
				 
			
 
				     def __init__(self,
			
 
				                  config: PretrainedConfig,
			
@@ -446,9 +446,9 @@ class InternVLChatModel(nn.Module, SupportsVision):
 
				             inputs_embeds = self.language_model.model.get_input_embeddings(
			
 
				                 input_ids)
			
 
				             vision_embeddings = self._process_image_input(image_input)
			
 
				-            inputs_embeds = merge_vision_embeddings(input_ids, inputs_embeds,
			
 
				-                                                    vision_embeddings,
			
 
				-                                                    self.img_context_token_id)
			
 
				+            inputs_embeds = merge_multimodal_embeddings(
			
 
				+                input_ids, inputs_embeds, vision_embeddings,
			
 
				+                self.img_context_token_id)
			
 
				             input_ids = None
			
 
				         else:
			
 
				             inputs_embeds = None
			
--- a/aphrodite/modeling/models/llava.py
+++ b/aphrodite/modeling/models/llava.py
@@ -18,12 +18,12 @@ from aphrodite.quantization.base_config import QuantizationConfig
 
				 from .clip import (CLIPVisionModel, dummy_image_for_clip,
			
 
				                    dummy_seq_data_for_clip, get_max_clip_image_tokens,
			
 
				                    input_processor_for_clip)
			
 
				-from .interfaces import SupportsVision
			
 
				+from .interfaces import SupportsMultiModal
			
 
				 from .siglip import (SiglipVisionModel, dummy_image_for_siglip,
			
 
				                      dummy_seq_data_for_siglip, get_max_siglip_image_tokens,
			
 
				                      input_processor_for_siglip)
			
 
				 from .utils import (filter_weights, init_aphrodite_registered_model,
			
 
				-                    merge_vision_embeddings)
			
 
				+                    merge_multimodal_embeddings)
			
 
				 
			
 
				 
			
 
				 class LlavaImagePixelInputs(TypedDict):
			
@@ -179,7 +179,7 @@ def _init_vision_tower(hf_config: LlavaConfig):
 
				 @MULTIMODAL_REGISTRY.register_max_image_tokens(get_max_llava_image_tokens)
			
 
				 @INPUT_REGISTRY.register_dummy_data(dummy_data_for_llava)
			
 
				 @INPUT_REGISTRY.register_input_processor(input_processor_for_llava)
			
 
				-class LlavaForConditionalGeneration(nn.Module, SupportsVision):
			
 
				+class LlavaForConditionalGeneration(nn.Module, SupportsMultiModal):
			
 
				 
			
 
				     def __init__(self,
			
 
				                  config: LlavaConfig,
			
@@ -336,7 +336,7 @@ class LlavaForConditionalGeneration(nn.Module, SupportsVision):
 
				             inputs_embeds = self.language_model.model.get_input_embeddings(
			
 
				                 input_ids)
			
 
				 
			
 
				-            inputs_embeds = merge_vision_embeddings(
			
 
				+            inputs_embeds = merge_multimodal_embeddings(
			
 
				                 input_ids, inputs_embeds, vision_embeddings,
			
 
				                 self.config.image_token_index)
			
 
				 
			
--- a/aphrodite/modeling/models/llava_next.py
+++ b/aphrodite/modeling/models/llava_next.py
@@ -21,13 +21,13 @@ from aphrodite.quantization.base_config import QuantizationConfig
 
				 from .clip import (CLIPVisionModel, dummy_image_for_clip,
			
 
				                    dummy_seq_data_for_clip, get_clip_image_feature_size,
			
 
				                    get_clip_patch_grid_length, input_processor_for_clip)
			
 
				-from .interfaces import SupportsVision
			
 
				+from .interfaces import SupportsMultiModal
			
 
				 from .llava import LlavaMultiModalProjector
			
 
				 from .siglip import (SiglipVisionModel, dummy_image_for_siglip,
			
 
				                      dummy_seq_data_for_siglip, get_siglip_image_feature_size,
			
 
				                      get_siglip_patch_grid_length, input_processor_for_siglip)
			
 
				 from .utils import (filter_weights, init_aphrodite_registered_model,
			
 
				-                    merge_vision_embeddings)
			
 
				+                    merge_multimodal_embeddings)
			
 
				 
			
 
				 _KEYS_TO_MODIFY_MAPPING = {
			
 
				     "language_model.lm_head": "lm_head",
			
@@ -270,7 +270,7 @@ def _init_vision_tower(hf_config: LlavaNextConfig):
 
				 @MULTIMODAL_REGISTRY.register_max_image_tokens(get_max_llava_next_image_tokens)
			
 
				 @INPUT_REGISTRY.register_dummy_data(dummy_data_for_llava_next)
			
 
				 @INPUT_REGISTRY.register_input_processor(input_processor_for_llava_next)
			
 
				-class LlavaNextForConditionalGeneration(nn.Module, SupportsVision):
			
 
				+class LlavaNextForConditionalGeneration(nn.Module, SupportsMultiModal):
			
 
				 
			
 
				     def __init__(self,
			
 
				                  config: LlavaNextConfig,
			
@@ -566,7 +566,7 @@ class LlavaNextForConditionalGeneration(nn.Module, SupportsVision):
 
				             inputs_embeds = self.language_model.model.get_input_embeddings(
			
 
				                 input_ids)
			
 
				 
			
 
				-            inputs_embeds = merge_vision_embeddings(
			
 
				+            inputs_embeds = merge_multimodal_embeddings(
			
 
				                 input_ids, inputs_embeds, vision_embeddings,
			
 
				                 self.config.image_token_index)
			
 
				 
			
--- a/aphrodite/modeling/models/minicpmv.py
+++ b/aphrodite/modeling/models/minicpmv.py
@@ -48,7 +48,7 @@ from aphrodite.modeling.layers.sampler import Sampler
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import ParallelLMHead
			
 
				 from aphrodite.modeling.model_loader.utils import set_default_torch_dtype
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
 
				-from aphrodite.modeling.models.interfaces import SupportsVision
			
 
				+from aphrodite.modeling.models.interfaces import SupportsMultiModal
			
 
				 from aphrodite.modeling.models.llama import LlamaModel
			
 
				 from aphrodite.modeling.models.minicpm import MiniCPMModel
			
 
				 from aphrodite.modeling.models.qwen2 import Qwen2Model
			
@@ -480,7 +480,7 @@ def input_processor_for_minicpmv(ctx: InputContext, llm_inputs: LLMInputs):
 
				     return llm_inputs
			
 
				 
			
 
				 
			
 
				-class MiniCPMVBaseModel(nn.Module, SupportsVision):
			
 
				+class MiniCPMVBaseModel(nn.Module, SupportsMultiModal):
			
 
				     """
			
 
				     The abstract class of MiniCPMV can only be inherited, but cannot be
			
 
				     instantiated.
			
--- a/aphrodite/modeling/models/paligemma.py
+++ b/aphrodite/modeling/models/paligemma.py
@@ -19,10 +19,10 @@ from aphrodite.multimodal import MULTIMODAL_REGISTRY
 
				 from aphrodite.multimodal.image import cached_get_tokenizer
			
 
				 from aphrodite.quantization.base_config import QuantizationConfig
			
 
				 
			
 
				-from .interfaces import SupportsVision
			
 
				+from .interfaces import SupportsMultiModal
			
 
				 from .siglip import (SiglipVisionModel, dummy_image_for_siglip,
			
 
				                      dummy_seq_data_for_siglip, get_max_siglip_image_tokens)
			
 
				-from .utils import merge_vision_embeddings
			
 
				+from .utils import merge_multimodal_embeddings
			
 
				 
			
 
				 _KEYS_TO_MODIFY_MAPPING = {
			
 
				     "language_model.model": "language_model",
			
@@ -126,7 +126,7 @@ class PaliGemmaMultiModalProjector(nn.Module):
 
				 @MULTIMODAL_REGISTRY.register_max_image_tokens(get_max_paligemma_image_tokens)
			
 
				 @INPUT_REGISTRY.register_dummy_data(dummy_data_for_paligemma)
			
 
				 @INPUT_REGISTRY.register_input_processor(input_processor_for_paligemma)
			
 
				-class PaliGemmaForConditionalGeneration(nn.Module, SupportsVision):
			
 
				+class PaliGemmaForConditionalGeneration(nn.Module, SupportsMultiModal):
			
 
				 
			
 
				     def __init__(self,
			
 
				                  config: PaliGemmaConfig,
			
@@ -240,7 +240,7 @@ class PaliGemmaForConditionalGeneration(nn.Module, SupportsVision):
 
				 
			
 
				             inputs_embeds = self.language_model.get_input_embeddings(input_ids)
			
 
				 
			
 
				-            inputs_embeds = merge_vision_embeddings(
			
 
				+            inputs_embeds = merge_multimodal_embeddings(
			
 
				                 input_ids, inputs_embeds, vision_embeddings,
			
 
				                 self.config.image_token_index)
			
 
				 
			
--- a/aphrodite/modeling/models/phi3v.py
+++ b/aphrodite/modeling/models/phi3v.py
@@ -43,8 +43,8 @@ from aphrodite.quantization.base_config import QuantizationConfig
 
				 
			
 
				 from .clip import (dummy_image_for_clip, dummy_seq_data_for_clip,
			
 
				                    input_processor_for_clip)
			
 
				-from .interfaces import SupportsVision
			
 
				-from .utils import merge_vision_embeddings
			
 
				+from .interfaces import SupportsMultiModal
			
 
				+from .utils import merge_multimodal_embeddings
			
 
				 
			
 
				 _KEYS_TO_MODIFY_MAPPING = {
			
 
				     "model.vision_embed_tokens": "vision_embed_tokens",
			
@@ -448,7 +448,7 @@ def input_processor_for_phi3v(ctx: InputContext, llm_inputs: LLMInputs):
 
				 @MULTIMODAL_REGISTRY.register_max_image_tokens(get_max_phi3v_image_tokens)
			
 
				 @INPUT_REGISTRY.register_dummy_data(dummy_data_for_phi3v)
			
 
				 @INPUT_REGISTRY.register_input_processor(input_processor_for_phi3v)
			
 
				-class Phi3VForCausalLM(nn.Module, SupportsVision):
			
 
				+class Phi3VForCausalLM(nn.Module, SupportsMultiModal):
			
 
				 
			
 
				     def __init__(self,
			
 
				                  config: PretrainedConfig,
			
@@ -563,9 +563,9 @@ class Phi3VForCausalLM(nn.Module, SupportsVision):
 
				         if image_input is not None:
			
 
				             vision_embeddings = self._process_image_input(image_input)
			
 
				             inputs_embeds = self.model.get_input_embeddings(input_ids)
			
 
				-            inputs_embeds = merge_vision_embeddings(input_ids, inputs_embeds,
			
 
				-                                                    vision_embeddings,
			
 
				-                                                    self.image_token_id)
			
 
				+            inputs_embeds = merge_multimodal_embeddings(
			
 
				+                input_ids, inputs_embeds, vision_embeddings,
			
 
				+                self.image_token_id)
			
 
				 
			
 
				             input_ids = None
			
 
				         else:
			
--- a/aphrodite/modeling/models/utils.py
+++ b/aphrodite/modeling/models/utils.py
@@ -56,41 +56,41 @@ def init_aphrodite_registered_model(
 
				     )
			
 
				 
			
 
				 
			
 
				-def merge_vision_embeddings(input_ids: torch.Tensor,
			
 
				-                            inputs_embeds: torch.Tensor,
			
 
				-                            vision_embeddings: BatchedTensors,
			
 
				-                            image_token_id: int) -> torch.Tensor:
			
 
				+def merge_multimodal_embeddings(input_ids: torch.Tensor,
			
 
				+                                inputs_embeds: torch.Tensor,
			
 
				+                                multimodal_embeddings: BatchedTensors,
			
 
				+                                placeholder_token_id: int) -> torch.Tensor:
			
 
				     """
			
 
				-    Merge ``vision_embeddings`` into ``inputs_embeds`` by overwriting the
			
 
				-    positions in ``inputs_embeds`` corresponding to placeholder image tokens in
			
 
				+    Merge ``multimodal_embeddings`` into ``inputs_embeds`` by overwriting the
			
 
				+    positions in ``inputs_embeds`` corresponding to placeholder tokens in
			
 
				     ``input_ids``.
			
 
				-
			
 
				     Note:
			
 
				         This updates ``inputs_embeds`` in place.
			
 
				     """
			
 
				-    mask = (input_ids == image_token_id)
			
 
				+    mask = (input_ids == placeholder_token_id)
			
 
				     num_expected_tokens = mask.sum()
			
 
				 
			
 
				-    if isinstance(vision_embeddings, torch.Tensor):
			
 
				-        batch_size, batch_tokens, *_, embed_dim = vision_embeddings.shape
			
 
				+    if isinstance(multimodal_embeddings, torch.Tensor):
			
 
				+        batch_size, batch_tokens, *_, embed_dim = multimodal_embeddings.shape
			
 
				         total_tokens = batch_size * batch_tokens
			
 
				         if num_expected_tokens != total_tokens:
			
 
				             expr = f"{batch_size} x {batch_tokens}"
			
 
				             raise ValueError(
			
 
				                 f"Attempted to assign {expr} = {total_tokens} "
			
 
				-                f"image tokens to {num_expected_tokens} placeholders")
			
 
				+                f"multimodal tokens to {num_expected_tokens} placeholders")
			
 
				 
			
 
				-        inputs_embeds[mask] = vision_embeddings.view(total_tokens, embed_dim)
			
 
				+        inputs_embeds[mask] = multimodal_embeddings.view(
			
 
				+            total_tokens, embed_dim)
			
 
				     else:
			
 
				-        size_per_batch = [t.shape[0] for t in vision_embeddings]
			
 
				+        size_per_batch = [t.shape[0] for t in multimodal_embeddings]
			
 
				         total_tokens = sum(size_per_batch)
			
 
				         if num_expected_tokens != total_tokens:
			
 
				             expr = ' + '.join(map(str, size_per_batch))
			
 
				             raise ValueError(
			
 
				                 f"Attempted to assign {expr} = {total_tokens} "
			
 
				-                f"image tokens to {num_expected_tokens} placeholders")
			
 
				+                f"multimodal tokens to {num_expected_tokens} placeholders")
			
 
				 
			
 
				-        inputs_embeds[mask] = torch.cat(vision_embeddings)
			
 
				+        inputs_embeds[mask] = torch.cat(multimodal_embeddings)
			
 
				 
			
 
				     return inputs_embeds
			
 
				 
			
--- a/aphrodite/multimodal/audio.py
+++ b/aphrodite/multimodal/audio.py
@@ -0,0 +1,17 @@
 
				+from aphrodite.inputs.registry import InputContext
			
 
				+from aphrodite.multimodal.base import MultiModalInputs, MultiModalPlugin
			
 
				+
			
 
				+
			
 
				+class AudioPlugin(MultiModalPlugin):
			
 
				+    """Plugin for audio data."""
			
 
				+
			
 
				+    def get_data_key(self) -> str:
			
 
				+        return "audio"
			
 
				+
			
 
				+    def _default_input_mapper(self, ctx: InputContext,
			
 
				+                              data: object) -> MultiModalInputs:
			
 
				+        raise NotImplementedError("There is no default audio input mapper")
			
 
				+
			
 
				+    def _default_max_multimodal_tokens(self, ctx: InputContext) -> int:
			
 
				+        raise NotImplementedError(
			
 
				+            "There is no default maximum multimodal tokens")
			
--- a/aphrodite/multimodal/base.py
+++ b/aphrodite/multimodal/base.py
@@ -3,8 +3,9 @@ from abc import ABC, abstractmethod
 
				 from collections import UserDict, defaultdict
			
 
				 from typing import Any, Callable, Dict, List, Optional
			
 
				 from typing import Sequence as GenericSequence
			
 
				-from typing import Type, TypedDict, TypeVar, Union, cast
			
 
				+from typing import Tuple, Type, TypedDict, TypeVar, Union, cast
			
 
				 
			
 
				+import numpy as np
			
 
				 import torch
			
 
				 import torch.types
			
 
				 from loguru import logger
			
@@ -115,7 +116,12 @@ class MultiModalInputs(_MultiModalInputsBase):
 
				 
			
 
				 
			
 
				 class MultiModalDataBuiltins(TypedDict, total=False):
			
 
				+    """Modality types that are pre-defined by Aphrodite."""
			
 
				     image: Image.Image
			
 
				+    """The input image."""
			
 
				+
			
 
				+    audio: Tuple[np.ndarray, Union[int, float]]
			
 
				+    """THe input audio and its sampling rate."""
			
 
				 
			
 
				 
			
 
				 MultiModalDataDict = Union[MultiModalDataBuiltins, Dict[str, Any]]
			
--- a/aphrodite/multimodal/registry.py
+++ b/aphrodite/multimodal/registry.py
@@ -6,6 +6,7 @@ from loguru import logger
 
				 
			
 
				 from aphrodite.common.config import ModelConfig
			
 
				 
			
 
				+from .audio import AudioPlugin
			
 
				 from .base import (MultiModalDataDict, MultiModalInputMapper, MultiModalInputs,
			
 
				                    MultiModalPlugin, MultiModalTokensCalc)
			
 
				 from .image import ImagePlugin
			
@@ -19,7 +20,7 @@ class MultiModalRegistry:
 
				     The registry handles both external and internal data input.
			
 
				     """
			
 
				 
			
 
				-    DEFAULT_PLUGINS = (ImagePlugin(), )
			
 
				+    DEFAULT_PLUGINS = (ImagePlugin(), AudioPlugin())
			
 
				 
			
 
				     def __init__(
			
 
				             self,
			
--- a/aphrodite/multimodal/utils.py
+++ b/aphrodite/multimodal/utils.py
@@ -1,8 +1,11 @@
 
				 import base64
			
 
				 import os
			
 
				 from io import BytesIO
			
 
				-from typing import Union
			
 
				+from typing import Tuple, Union
			
 
				 
			
 
				+import librosa
			
 
				+import numpy as np
			
 
				+import soundfile
			
 
				 from PIL import Image
			
 
				 
			
 
				 from aphrodite.common.connections import global_http_connection
			
@@ -11,6 +14,9 @@ from aphrodite.multimodal.base import MultiModalDataDict
 
				 APHRODITE_IMAGE_FETCH_TIMEOUT = int(
			
 
				     os.getenv("APHRODITE_IMAGE_FETCH_TIMEOUT", 10))
			
 
				 
			
 
				+APHRODITE_AUDIO_FETCH_TIMEOUT = int(
			
 
				+    os.getenv("APHRODITE_AUDIO_FETCH_TIMEOUT", 10))
			
 
				+
			
 
				 
			
 
				 def _load_image_from_bytes(b: bytes):
			
 
				     image = Image.open(BytesIO(b))
			
@@ -64,11 +70,62 @@ async def async_fetch_image(image_url: str,
 
				     return image.convert(image_mode)
			
 
				 
			
 
				 
			
 
				+def fetch_audio(audio_url: str) -> Tuple[np.ndarray, Union[int, float]]:
			
 
				+    """
			
 
				+    Load audio from a URL.
			
 
				+    """
			
 
				+    if audio_url.startswith("http"):
			
 
				+        audio_bytes = global_http_connection.get_bytes(
			
 
				+            audio_url, timeout=APHRODITE_AUDIO_FETCH_TIMEOUT)
			
 
				+    elif audio_url.startswith("data:audio"):
			
 
				+        _, audio_base64 = audio_url.split(",", 1)
			
 
				+        audio_bytes = base64.b64decode(audio_base64)
			
 
				+    else:
			
 
				+        raise ValueError("Invalid 'audio_url': A valid 'audio_url' must start "
			
 
				+                         "with either 'data:audio' or 'http'.")
			
 
				+
			
 
				+    return librosa.load(BytesIO(audio_bytes), sr=None)
			
 
				+
			
 
				+
			
 
				+async def async_fetch_audio(
			
 
				+        audio_url: str) -> Tuple[np.ndarray, Union[int, float]]:
			
 
				+    """
			
 
				+    Asynchronously fetch audio from a URL.
			
 
				+    """
			
 
				+    if audio_url.startswith("http"):
			
 
				+        audio_bytes = await global_http_connection.async_get_bytes(
			
 
				+            audio_url, timeout=APHRODITE_AUDIO_FETCH_TIMEOUT)
			
 
				+    elif audio_url.startswith("data:audio"):
			
 
				+        _, audio_base64 = audio_url.split(",", 1)
			
 
				+        audio_bytes = base64.b64decode(audio_base64)
			
 
				+    else:
			
 
				+        raise ValueError("Invalid 'audio_url': A valid 'audio_url' must start "
			
 
				+                         "with either 'data:audio' or 'http'.")
			
 
				+
			
 
				+    return librosa.load(BytesIO(audio_bytes), sr=None)
			
 
				+
			
 
				+
			
 
				+async def async_get_and_parse_audio(audio_url: str) -> MultiModalDataDict:
			
 
				+    audio, sr = await async_fetch_audio(audio_url)
			
 
				+    return {"audio": (audio, sr)}
			
 
				+
			
 
				+
			
 
				 async def async_get_and_parse_image(image_url: str) -> MultiModalDataDict:
			
 
				     image = await async_fetch_image(image_url)
			
 
				     return {"image": image}
			
 
				 
			
 
				 
			
 
				+def encode_audio_base64(
			
 
				+    audio: np.ndarray,
			
 
				+    sampling_rate: int,
			
 
				+) -> str:
			
 
				+    """Encode audio as base64."""
			
 
				+    buffered = BytesIO()
			
 
				+    soundfile.write(buffered, audio, sampling_rate, format="WAV")
			
 
				+
			
 
				+    return base64.b64encode(buffered.getvalue()).decode('utf-8')
			
 
				+
			
 
				+
			
 
				 def encode_image_base64(
			
 
				     image: Image.Image,
			
 
				     *,
			
--- a/aphrodite/task_handler/model_runner.py
+++ b/aphrodite/task_handler/model_runner.py
@@ -49,7 +49,8 @@ from aphrodite.lora.worker_manager import LRUCacheWorkerLoRAManager
 
				 from aphrodite.modeling import SamplingMetadata, SamplingMetadataCache
			
 
				 from aphrodite.modeling.model_loader import get_model
			
 
				 from aphrodite.modeling.model_loader.tensorizer import TensorizerConfig
			
 
				-from aphrodite.modeling.models.interfaces import supports_lora, supports_vision
			
 
				+from aphrodite.modeling.models.interfaces import (supports_lora,
			
 
				+                                                  supports_multimodal)
			
 
				 from aphrodite.modeling.models.utils import set_cpu_offload_max_bytes
			
 
				 from aphrodite.multimodal import (MULTIMODAL_REGISTRY, BatchedTensorInputs,
			
 
				                                   MultiModalInputs)
			
@@ -908,9 +909,9 @@ class GPUModelRunnerBase(ModelRunnerBase[TModelInputForGPU]):
 
				 
			
 
				         if self.lora_config:
			
 
				             assert supports_lora(self.model), "Model does not support LoRA"
			
 
				-            assert not supports_vision(
			
 
				+            assert not supports_multimodal(
			
 
				                 self.model
			
 
				-            ), "To be tested: vision language model with LoRA settings."
			
 
				+            ), "To be tested: multimodal language model with LoRA settings."
			
 
				 
			
 
				             self.lora_manager = LRUCacheWorkerLoRAManager(
			
 
				                 self.scheduler_config.max_num_seqs,
			
@@ -1072,7 +1073,7 @@ class GPUModelRunnerBase(ModelRunnerBase[TModelInputForGPU]):
 
				         # the number of seqs (batch_size) is chosen to maximize the number
			
 
				         # of images processed.
			
 
				         model_config = self.model_config
			
 
				-        if supports_vision(self.model):
			
 
				+        if supports_multimodal(self.model):
			
 
				             max_mm_tokens = MULTIMODAL_REGISTRY \
			
 
				                 .get_max_multimodal_tokens(model_config)
			
 
				             max_num_seqs_orig = max_num_seqs
			
--- a/aphrodite/task_handler/xpu_model_runner.py
+++ b/aphrodite/task_handler/xpu_model_runner.py
@@ -17,7 +17,7 @@ from aphrodite.common.utils import CudaMemoryProfiler, make_tensor_with_pad
 
				 from aphrodite.distributed import broadcast_tensor_dict
			
 
				 from aphrodite.inputs import INPUT_REGISTRY
			
 
				 from aphrodite.modeling.model_loader import get_model
			
 
				-from aphrodite.modeling.models.interfaces import supports_vision
			
 
				+from aphrodite.modeling.models.interfaces import supports_multimodal
			
 
				 from aphrodite.multimodal import (MULTIMODAL_REGISTRY, BatchedTensorInputs,
			
 
				                                   MultiModalInputs)
			
 
				 from aphrodite.task_handler.model_runner import (AttentionMetadata,
			
@@ -166,7 +166,7 @@ class XPUModelRunner(ModelRunnerBase[ModelInputForXPU]):
 
				         # the number of seqs (batch_size) is chosen to maximize the number
			
 
				         # of images processed.
			
 
				         model_config = self.model_config
			
 
				-        if supports_vision(self.model):
			
 
				+        if supports_multimodal(self.model):
			
 
				             max_mm_tokens = MULTIMODAL_REGISTRY \
			
 
				                 .get_max_multimodal_tokens(model_config)
			
 
				             max_num_seqs_orig = max_num_seqs
			
--- a/docs/pages/developer/multimodal.md
+++ b/docs/pages/developer/multimodal.md
@@ -13,13 +13,13 @@ See also: [Adding a New Model](/pages/developer/adding-model).
 
				 ## Step 1: Update the base Aphrodite model
			
 
				 We assume that you have already created a new model by following the steps in the [Adding a New Model](/pages/developer/adding-model) guide. If not, please do so before proceeding.
			
 
				 
			
 
				-1. Implement the `aphrodite.modeling.models.interfaces.SupportsVision` interface:
			
 
				+1. Implement the `aphrodite.modeling.models.interfaces.SupportsMultiModal` interface:
			
 
				 
			
 
				 ```py
			
 
				-from aphrodite.modeling.models.interfaces import SupportsVision  # [!code ++]
			
 
				+from aphrodite.modeling.models.interfaces import SupportsMultiModal  # [!code ++]
			
 
				 
			
 
				 class YourModelForImage2Seq(nn.Module):  # [!code --]
			
 
				-class YourModelForImage2Seq(nn.Module, SupportsVision):  # [!code ++]
			
 
				+class YourModelForImage2Seq(nn.Module, SupportsMultiModal):  # [!code ++]
			
 
				 ```
			
 
				 
			
 
				 :::info
			
@@ -43,11 +43,11 @@ The model class does not have to be named `*ForCausalLM`. Check out the[ Hugging
 
				 For each modality type that the model accepts as input, decorate the model class with `aphrodite.multimodal.MultiModalRegistry.register_input_mapper`. This decorator accepts a function that maps multi-modal inputs to the keyword arguments you have previously defined in `forward()`.
			
 
				 
			
 
				 ```py
			
 
				-from aphrodite.modeling.models.interfaces import SupportsVision
			
 
				+from aphrodite.modeling.models.interfaces import SupportsMultiModal
			
 
				 from aphrodite.multimodal import MULTIMODAL_REGISTRY  # [!code ++]
			
 
				 
			
 
				 @MULTIMODAL_REGISTRY.register_image_input_mapper()  # [!code ++]
			
 
				-class YourModelForImage2Seq(nn.Module, SupportsVision):
			
 
				+class YourModelForImage2Seq(nn.Module, SupportsMultiModal):
			
 
				 ```
			
 
				 
			
 
				 A default mapper is available for each modality in the core Aphrodite library. This input mapper will be used if you do not provide your own function.
			
@@ -62,13 +62,13 @@ For each modality type that the model accepts as input, calculate the maximum po
 
				 
			
 
				 ```py
			
 
				 from aphrodite.inputs import INPUT_REGISTRY  # [!code ++]
			
 
				-from aphrodite.modeling.models.interfaces import SupportsVision
			
 
				+from aphrodite.modeling.models.interfaces import SupportsMultiModal
			
 
				 from aphrodite.multimodal import MULTIMODAL_REGISTRY
			
 
				 
			
 
				 @MULTIMODAL_REGISTRY.register_image_input_mapper()
			
 
				 @MULTIMODAL_REGISTRY.register_max_image_tokens(<your_calculation>)
			
 
				 @INPUT_REGISTRY.register_dummy_data(<your_dummy_data_factory>)  # [!code ++]
			
 
				-class YourModelForImage2Seq(nn.Module, SupportsVision):
			
 
				+class YourModelForImage2Seq(nn.Module, SupportsMultiModal):
			
 
				 ```
			
 
				 
			
 
				 Here are some examples:
			
@@ -85,13 +85,13 @@ During startup, dummy data is passed to the Aphrodite model to allocate memory.
 
				 
			
 
				 ```py
			
 
				 from aphrodite.inputs import INPUT_REGISTRY
			
 
				-from aphrodite.modeling.models.interfaces import SupportsVision
			
 
				+from aphrodite.modeling.models.interfaces import SupportsMultiModal
			
 
				 from aphrodite.multimodal import MULTIMODAL_REGISTRY
			
 
				 
			
 
				 @MULTIMODAL_REGISTRY.register_image_input_mapper()
			
 
				 @MULTIMODAL_REGISTRY.register_max_image_tokens(<your_calculation>)
			
 
				 @INPUT_REGISTRY.register_dummy_data(<your_dummy_data_factory>)  # [!code ++]
			
 
				-class YourModelForImage2Seq(nn.Module, SupportsVision):
			
 
				+class YourModelForImage2Seq(nn.Module, SupportsMultiModal):
			
 
				 ```
			
 
				 
			
 
				 :::info
			
@@ -111,14 +111,14 @@ Sometimes, there's a need to process inputs at the `aphrodite.AphroditeEngine` l
 
				 
			
 
				 ```py
			
 
				 from aphrodite.inputs import INPUT_REGISTRY
			
 
				-from aphrodite.modeling.models.interfaces import SupportsVision
			
 
				+from aphrodite.modeling.models.interfaces import SupportsMultiModal
			
 
				 from aphrodite.multimodal import MULTIMODAL_REGISTRY
			
 
				 
			
 
				 @MULTIMODAL_REGISTRY.register_image_input_mapper()
			
 
				 @MULTIMODAL_REGISTRY.register_max_image_tokens(<your_calculation>)
			
 
				 @INPUT_REGISTRY.register_dummy_data(<your_dummy_data_factory>)
			
 
				 @INPUT_REGISTRY.register_input_processor(<your_input_processor>)  # [!code ++]
			
 
				-class YourModelForImage2Seq(nn.Module, SupportsVision):
			
 
				+class YourModelForImage2Seq(nn.Module, SupportsMultiModal):
			
 
				 ```
			
 
				 
			
 
				 A common use case of input processors is inserting placeholder tokens to leverage the Aphrodite framework for attention mask generation. Here are some examples:
			
--- a/requirements-common.txt
+++ b/requirements-common.txt
@@ -24,4 +24,6 @@ scipy # for quip
 
				 rich
			
 
				 loguru
			
 
				 hf_transfer # for faster downloads
			
 
				+librosa  # Required for audio processing
			
 
				+soundfile  # Required for audio processing
			
 
				 gguf == 0.9.1