4 月之前 · 2242874526
--- a/aphrodite/inputs/registry.py
+++ b/aphrodite/inputs/registry.py
@@ -34,7 +34,7 @@ class InputContext:
 
				     model_config: "ModelConfig"
			
 
				     """The configuration of the model."""
			
 
				 
			
 
				-    def get_hf_config(self, hf_config_type: Type[C]) -> C:
			
 
				+    def get_hf_config(self, hf_config_type: Type[C] = PretrainedConfig) -> C:
			
 
				         """
			
 
				         Get the HuggingFace configuration
			
 
				         (:class:`transformers.PretrainedConfig`) of the model,
			
--- a/aphrodite/modeling/models/blip.py
+++ b/aphrodite/modeling/models/blip.py
@@ -1,5 +1,6 @@
 
				 """Minimal implementation of BlipVisionModel intended to be only used 
			
 
				 within a vision language model."""
			
 
				+from array import array
			
 
				 from typing import Optional, Union
			
 
				 
			
 
				 import torch
			
@@ -9,7 +10,8 @@ from transformers import Blip2VisionConfig, BlipVisionConfig
 
				 from transformers.models.blip.modeling_blip import BlipAttention
			
 
				 
			
 
				 from aphrodite.common.config import ModelConfig
			
 
				-from aphrodite.common.sequence import SequenceData
			
 
				+from aphrodite.common.sequence import (APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                                       SequenceData)
			
 
				 from aphrodite.inputs import LLMInputs
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
 
				 from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
			
@@ -53,8 +55,10 @@ def dummy_seq_data_for_blip(
 
				     else:
			
 
				         image_feature_size = image_feature_size_override
			
 
				 
			
 
				-    token_ids = [image_token_id] * image_feature_size
			
 
				-    token_ids += [0] * (seq_len - image_feature_size)
			
 
				+    token_ids = array(APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                      [image_token_id]) * image_feature_size
			
 
				+    token_ids += array(APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                       [0]) * (seq_len - image_feature_size)
			
 
				     return SequenceData(token_ids)
			
 
				 
			
 
				 
			
--- a/aphrodite/modeling/models/blip2.py
+++ b/aphrodite/modeling/models/blip2.py
@@ -1,3 +1,4 @@
 
				+from array import array
			
 
				 from typing import (Iterable, List, Literal, Mapping, Optional, Tuple,
			
 
				                     TypedDict, Union)
			
 
				 
			
@@ -8,7 +9,8 @@ from transformers import (Blip2Config, Blip2QFormerConfig, Blip2VisionConfig,
 
				 
			
 
				 from aphrodite.attention import AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, MultiModalConfig
			
 
				-from aphrodite.common.sequence import (IntermediateTensors, SamplerOutput,
			
 
				+from aphrodite.common.sequence import (APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                                       IntermediateTensors, SamplerOutput,
			
 
				                                        SequenceData)
			
 
				 from aphrodite.inputs import INPUT_REGISTRY, InputContext, LLMInputs
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
@@ -427,8 +429,10 @@ def dummy_seq_data_for_blip2(
 
				     else:
			
 
				         image_feature_size = image_feature_size_override
			
 
				 
			
 
				-    token_ids = [image_token_id] * image_feature_size * num_images
			
 
				-    token_ids += [0] * (seq_len - image_feature_size * num_images)
			
 
				+    token_ids = array(APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                      [image_token_id]) * image_feature_size * num_images
			
 
				+    token_ids += array(APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                       [0]) * (seq_len - image_feature_size * num_images)
			
 
				     return SequenceData(token_ids)
			
 
				 
			
 
				 
			
--- a/aphrodite/modeling/models/chameleon.py
+++ b/aphrodite/modeling/models/chameleon.py
@@ -1,3 +1,4 @@
 
				+from array import array
			
 
				 from functools import cached_property
			
 
				 from typing import (Any, Dict, Iterable, List, Literal, Mapping, Optional,
			
 
				                     Tuple, TypedDict)
			
@@ -10,7 +11,8 @@ from transformers import ChameleonConfig, ChameleonVQVAEConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, MultiModalConfig
			
 
				-from aphrodite.common.sequence import (IntermediateTensors, SamplerOutput,
			
 
				+from aphrodite.common.sequence import (APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                                       IntermediateTensors, SamplerOutput,
			
 
				                                        SequenceData)
			
 
				 from aphrodite.common.utils import print_warning_once
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
@@ -68,8 +70,10 @@ def dummy_seq_data_for_chameleon(
 
				     else:
			
 
				         image_feature_size = image_feature_size_override
			
 
				 
			
 
				-    token_ids = [image_token_id] * image_feature_size * num_images
			
 
				-    token_ids += [0] * (seq_len - image_feature_size * num_images)
			
 
				+    token_ids = array(APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                      [image_token_id]) * image_feature_size * num_images
			
 
				+    token_ids += array(APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                       [0]) * (seq_len - image_feature_size * num_images)
			
 
				     return SequenceData(token_ids)
			
 
				 
			
 
				 
			
--- a/aphrodite/modeling/models/clip.py
+++ b/aphrodite/modeling/models/clip.py
@@ -1,5 +1,6 @@
 
				 """Minimal implementation of CLIPVisionModel intended to be only used 
			
 
				 within a vision language model."""
			
 
				+from array import array
			
 
				 from typing import Optional
			
 
				 
			
 
				 import torch
			
@@ -9,7 +10,8 @@ from transformers import CLIPVisionConfig
 
				 from transformers.models.clip.modeling_clip import CLIPAttention
			
 
				 
			
 
				 from aphrodite.common.config import ModelConfig
			
 
				-from aphrodite.common.sequence import SequenceData
			
 
				+from aphrodite.common.sequence import (APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                                       SequenceData)
			
 
				 from aphrodite.inputs import LLMInputs
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
 
				 from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
			
@@ -52,8 +54,10 @@ def dummy_seq_data_for_clip(
 
				     else:
			
 
				         image_feature_size = image_feature_size_override
			
 
				 
			
 
				-    token_ids = [image_token_id] * image_feature_size * num_images
			
 
				-    token_ids += [0] * (seq_len - image_feature_size * num_images)
			
 
				+    token_ids = array(APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                      [image_token_id]) * image_feature_size * num_images
			
 
				+    token_ids += array(APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                       [0]) * (seq_len - image_feature_size * num_images)
			
 
				     return SequenceData(token_ids)
			
 
				 
			
 
				 
			
--- a/aphrodite/modeling/models/fuyu.py
+++ b/aphrodite/modeling/models/fuyu.py
@@ -16,6 +16,7 @@
 
				 # limitations under the License.
			
 
				 """ PyTorch Fuyu model."""
			
 
				 import math
			
 
				+from array import array
			
 
				 from typing import Iterable, List, Literal, Mapping, Optional, Tuple, TypedDict
			
 
				 
			
 
				 import torch
			
@@ -26,7 +27,8 @@ from transformers import FuyuConfig, FuyuImageProcessor
 
				 
			
 
				 from aphrodite.attention import AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, MultiModalConfig
			
 
				-from aphrodite.common.sequence import (IntermediateTensors, SamplerOutput,
			
 
				+from aphrodite.common.sequence import (APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                                       IntermediateTensors, SamplerOutput,
			
 
				                                        SequenceData)
			
 
				 from aphrodite.inputs import INPUT_REGISTRY, InputContext, LLMInputs
			
 
				 from aphrodite.modeling.layers.linear import ColumnParallelLinear
			
@@ -95,9 +97,13 @@ def dummy_seq_data_for_fuyu(ctx: InputContext, seq_len: int, num_images: int):
 
				     ncol, nrow = get_max_fuyu_image_feature_size()
			
 
				     image_feature_size = get_max_fuyu_image_tokens(ctx)
			
 
				 
			
 
				-    image_token_ids = ([_IMAGE_TOKEN_ID] * ncol + [_NEWLINE_TOKEN_ID]) * nrow
			
 
				-    token_ids = image_token_ids * num_images
			
 
				-    token_ids += [0] * (seq_len - image_feature_size * num_images)
			
 
				+    image_token_ids = (
			
 
				+        array(APHRODITE_TOKEN_ID_ARRAY_TYPE, [_IMAGE_TOKEN_ID]) * ncol +
			
 
				+        array(APHRODITE_TOKEN_ID_ARRAY_TYPE, [_NEWLINE_TOKEN_ID])) * nrow
			
 
				+    token_ids = array(APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                      image_token_ids) * num_images
			
 
				+    token_ids += array(APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                       [0]) * (seq_len - image_feature_size * num_images)
			
 
				     return SequenceData(token_ids)
			
 
				 
			
 
				 
			
--- a/aphrodite/modeling/models/minicpmv.py
+++ b/aphrodite/modeling/models/minicpmv.py
@@ -23,6 +23,7 @@
 
				 """Inference-only MiniCPM-V model compatible with HuggingFace weights."""
			
 
				 import math
			
 
				 import re
			
 
				+from array import array
			
 
				 from functools import partial
			
 
				 from typing import (Any, Callable, Iterable, List, Mapping, Optional, Tuple,
			
 
				                     TypedDict, Union)
			
@@ -38,7 +39,8 @@ from transformers.configuration_utils import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, MultiModalConfig
			
 
				-from aphrodite.common.sequence import (IntermediateTensors, SamplerOutput,
			
 
				+from aphrodite.common.sequence import (APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                                       IntermediateTensors, SamplerOutput,
			
 
				                                        SequenceData)
			
 
				 from aphrodite.inputs import INPUT_REGISTRY, InputContext, LLMInputs
			
 
				 from aphrodite.modeling.layers.linear import ReplicatedLinear
			
@@ -409,7 +411,7 @@ def get_max_minicpmv_image_tokens(ctx: InputContext):
 
				 
			
 
				 
			
 
				 def dummy_seq_data_for_minicpmv(seq_len: int, num_images: int):
			
 
				-    token_ids = [0] * seq_len
			
 
				+    token_ids = array(APHRODITE_TOKEN_ID_ARRAY_TYPE, [0]) * seq_len
			
 
				     return SequenceData(token_ids)
			
 
				 
			
 
				 
			
--- a/aphrodite/modeling/models/siglip.py
+++ b/aphrodite/modeling/models/siglip.py
@@ -2,6 +2,7 @@
 
				 within a vision language model."""
			
 
				 
			
 
				 import math
			
 
				+from array import array
			
 
				 from typing import Iterable, Optional, Tuple
			
 
				 
			
 
				 import torch
			
@@ -13,7 +14,8 @@ from transformers.models.siglip.modeling_siglip import SiglipAttention
 
				 from xformers.ops import memory_efficient_attention
			
 
				 
			
 
				 from aphrodite.common.config import ModelConfig
			
 
				-from aphrodite.common.sequence import SequenceData
			
 
				+from aphrodite.common.sequence import (APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                                       SequenceData)
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.inputs import LLMInputs
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
@@ -62,8 +64,10 @@ def dummy_seq_data_for_siglip(
 
				     else:
			
 
				         image_feature_size = image_feature_size_override
			
 
				 
			
 
				-    token_ids = [image_token_id] * image_feature_size * num_images
			
 
				-    token_ids += [0] * (seq_len - image_feature_size * num_images)
			
 
				+    token_ids = array(APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                      [image_token_id]) * image_feature_size
			
 
				+    token_ids += array(APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				+                       [0]) * (seq_len - image_feature_size)
			
 
				     return SequenceData(token_ids)