пре 1 месец · 91d03c04d2
--- a/aphrodite/modeling/models/internvl.py
+++ b/aphrodite/modeling/models/internvl.py
@@ -4,7 +4,6 @@
 
				 # Copyright (c) 2023 OpenGVLab
			
 
				 # Licensed under The MIT License [see LICENSE for details]
			
 
				 # --------------------------------------------------------
			
 
				-import itertools
			
 
				 import re
			
 
				 from typing import (Iterable, List, Literal, Mapping, Optional, Tuple,
			
 
				                     TypedDict, Union)
			
@@ -33,7 +32,7 @@ from aphrodite.quantization import QuantizationConfig
 
				 from .clip import (dummy_image_for_clip, dummy_seq_data_for_clip,
			
 
				                    get_clip_num_patches)
			
 
				 from .interfaces import SupportsMultiModal
			
 
				-from .utils import (filter_weights, flatten_bn,
			
 
				+from .utils import (flatten_bn, group_weights_with_prefix,
			
 
				                     init_aphrodite_registered_model,
			
 
				                     merge_multimodal_embeddings)
			
 
				 
			
@@ -515,21 +514,18 @@ class InternVLChatModel(nn.Module, SupportsMultiModal):
 
				 
			
 
				     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
			
 
				         # prepare weight iterators for components
			
 
				-        vit_weights, mlp_weights, llm_weights = itertools.tee(weights, 3)
			
 
				+        weights_group = group_weights_with_prefix(weights)
			
 
				 
			
 
				         # load vision encoder
			
 
				-        vit_weights = filter_weights(vit_weights, "vision_model")
			
 
				-        self.vision_model.load_weights(vit_weights)
			
 
				+        self.vision_model.load_weights(weights_group["vision_model"])
			
 
				 
			
 
				         # load mlp projector
			
 
				-        mlp_weights = filter_weights(mlp_weights, "mlp1")
			
 
				         mlp_params_dict = dict(self.mlp1.named_parameters())
			
 
				-        for name, loaded_weight in mlp_weights:
			
 
				+        for name, loaded_weight in weights_group["mlp1"]:
			
 
				             param = mlp_params_dict[name]
			
 
				             weight_loader = getattr(param, "weight_loader",
			
 
				                                     default_weight_loader)
			
 
				             weight_loader(param, loaded_weight)
			
 
				 
			
 
				         # load llm backbone
			
 
				-        llm_weights = filter_weights(llm_weights, "language_model")
			
 
				-        self.language_model.load_weights(llm_weights)
			
 
				+        self.language_model.load_weights(weights_group["language_model"])
			
--- a/aphrodite/modeling/models/llava.py
+++ b/aphrodite/modeling/models/llava.py
@@ -1,4 +1,3 @@
 
				-import itertools
			
 
				 from typing import (Iterable, List, Literal, Mapping, Optional, Tuple,
			
 
				                     TypedDict, Union)
			
 
				 
			
@@ -26,7 +25,7 @@ from .interfaces import SupportsMultiModal
 
				 from .siglip import (SiglipVisionModel, dummy_image_for_siglip,
			
 
				                      dummy_seq_data_for_siglip, get_max_siglip_image_tokens,
			
 
				                      input_processor_for_siglip)
			
 
				-from .utils import (filter_weights, flatten_bn,
			
 
				+from .utils import (flatten_bn, group_weights_with_prefix,
			
 
				                     init_aphrodite_registered_model,
			
 
				                     merge_multimodal_embeddings)
			
 
				 
			
@@ -392,21 +391,18 @@ class LlavaForConditionalGeneration(nn.Module, SupportsMultiModal):
 
				 
			
 
				     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
			
 
				         # prepare weight iterators for components
			
 
				-        vit_weights, mlp_weights, llm_weights = itertools.tee(weights, 3)
			
 
				+        weights_group = group_weights_with_prefix(weights)
			
 
				 
			
 
				         # load vision encoder
			
 
				-        vit_weights = filter_weights(vit_weights, "vision_tower")
			
 
				-        self.vision_tower.load_weights(vit_weights)
			
 
				+        self.vision_tower.load_weights(weights_group["vision_tower"])
			
 
				 
			
 
				         # load mlp projector
			
 
				-        mlp_weights = filter_weights(mlp_weights, "multi_modal_projector")
			
 
				         mlp_params_dict = dict(self.multi_modal_projector.named_parameters())
			
 
				-        for name, loaded_weight in mlp_weights:
			
 
				+        for name, loaded_weight in weights_group["multi_modal_projector"]:
			
 
				             param = mlp_params_dict[name]
			
 
				             weight_loader = getattr(param, "weight_loader",
			
 
				                                     default_weight_loader)
			
 
				             weight_loader(param, loaded_weight)
			
 
				 
			
 
				         # load llm backbone
			
 
				-        llm_weights = filter_weights(llm_weights, "language_model")
			
 
				-        self.language_model.load_weights(llm_weights)
			
 
				+        self.language_model.load_weights(weights_group["language_model"])
			
--- a/aphrodite/modeling/models/llava_next.py
+++ b/aphrodite/modeling/models/llava_next.py
@@ -1,4 +1,3 @@
 
				-import itertools
			
 
				 from typing import (Iterable, List, Literal, Mapping, Optional, Tuple,
			
 
				                     TypedDict, Union)
			
 
				 
			
@@ -29,7 +28,7 @@ from .llava import LlavaMultiModalProjector
 
				 from .siglip import (SiglipVisionModel, dummy_image_for_siglip,
			
 
				                      dummy_seq_data_for_siglip, get_siglip_image_feature_size,
			
 
				                      get_siglip_patch_grid_length, input_processor_for_siglip)
			
 
				-from .utils import (filter_weights, flatten_bn,
			
 
				+from .utils import (flatten_bn, group_weights_with_prefix,
			
 
				                     init_aphrodite_registered_model,
			
 
				                     merge_multimodal_embeddings)
			
 
				 
			
@@ -628,25 +627,21 @@ class LlavaNextForConditionalGeneration(nn.Module, SupportsMultiModal):
 
				 
			
 
				     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
			
 
				         # prepare weight iterators for components
			
 
				-        vit_weights, mlp_weights, newline_weights, llm_weights = itertools.tee(
			
 
				-            weights, 4)
			
 
				+        weights_group = group_weights_with_prefix(weights)
			
 
				 
			
 
				         # load vision encoder
			
 
				-        vit_weights = filter_weights(vit_weights, "vision_tower")
			
 
				-        self.vision_tower.load_weights(vit_weights)
			
 
				+        self.vision_tower.load_weights(weights_group["vision_tower"])
			
 
				 
			
 
				         # load mlp projector
			
 
				-        mlp_weights = filter_weights(mlp_weights, "multi_modal_projector")
			
 
				         mlp_params_dict = dict(self.multi_modal_projector.named_parameters())
			
 
				-        for name, loaded_weight in mlp_weights:
			
 
				+        for name, loaded_weight in weights_group["multi_modal_projector"]:
			
 
				             param = mlp_params_dict[name]
			
 
				             weight_loader = getattr(param, "weight_loader",
			
 
				                                     default_weight_loader)
			
 
				             weight_loader(param, loaded_weight)
			
 
				 
			
 
				         # load newline
			
 
				-        newline_weights = filter_weights(newline_weights, "image_newline")
			
 
				-        for name, loaded_weight in newline_weights:
			
 
				+        for name, loaded_weight in weights_group["image_newline"]:
			
 
				             assert name == ""
			
 
				             param = self.image_newline
			
 
				             weight_loader = getattr(param, "weight_loader",
			
@@ -654,6 +649,5 @@ class LlavaNextForConditionalGeneration(nn.Module, SupportsMultiModal):
 
				             weight_loader(param, loaded_weight)
			
 
				 
			
 
				         # load llm backbone
			
 
				-        llm_weights = filter_weights(llm_weights, "language_model")
			
 
				-        self.language_model.load_weights(llm_weights)
			
 
				+        self.language_model.load_weights(weights_group["language_model"])
			
 
				     
			
--- a/aphrodite/modeling/models/llava_next_video.py
+++ b/aphrodite/modeling/models/llava_next_video.py
@@ -1,4 +1,3 @@
 
				-import itertools
			
 
				 import math
			
 
				 from typing import (Iterable, List, Literal, Mapping, Optional, Tuple,
			
 
				                     TypedDict, Union)
			
@@ -28,7 +27,7 @@ from .clip import dummy_image_for_clip, dummy_seq_data_for_clip
 
				 from .interfaces import SupportsMultiModal
			
 
				 from .siglip import (SiglipVisionModel, dummy_image_for_siglip,
			
 
				                      dummy_seq_data_for_siglip)
			
 
				-from .utils import (filter_weights, init_aphrodite_registered_model,
			
 
				+from .utils import (group_weights_with_prefix, init_aphrodite_registered_model,
			
 
				                     merge_multimodal_embeddings)
			
 
				 
			
 
				 # For profile run
			
@@ -427,22 +426,19 @@ class LlavaNextVideoForConditionalGeneration(nn.Module, SupportsMultiModal):
 
				         return self.language_model.sample(logits, sampling_metadata)
			
 
				 
			
 
				     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
			
 
				-        # prepare weight iterators
			
 
				-        vit_weights, mlp_weights, newline_weights, llm_weights = itertools.tee(
			
 
				-            weights, 4
			
 
				-        )
			
 
				+        # prepare weight iterators for components
			
 
				+        weights_group = group_weights_with_prefix(weights)
			
 
				+
			
 
				         # load vision encoder
			
 
				-        vit_weights = filter_weights(vit_weights, "vision_tower")
			
 
				-        self.vision_tower.load_weights(vit_weights)
			
 
				+        self.vision_tower.load_weights(weights_group["vision_tower"])
			
 
				+
			
 
				         # load mlp projector
			
 
				-        mlp_weights = filter_weights(mlp_weights, "multi_modal_projector")
			
 
				         mlp_params_dict = dict(self.multi_modal_projector.named_parameters())
			
 
				-        for name, loaded_weight in mlp_weights:
			
 
				+        for name, loaded_weight in weights_group["multi_modal_projector"]:
			
 
				             param = mlp_params_dict[name]
			
 
				-            weight_loader = getattr(
			
 
				-                param, "weight_loader", default_weight_loader
			
 
				-            )
			
 
				+            weight_loader = getattr(param, "weight_loader",
			
 
				+                                    default_weight_loader)
			
 
				             weight_loader(param, loaded_weight)
			
 
				+
			
 
				         # load llm backbone
			
 
				-        llm_weights = filter_weights(llm_weights, "language_model")
			
 
				-        self.language_model.load_weights(llm_weights)
			
 
				+        self.language_model.load_weights(weights_group["language_model"])
			
--- a/aphrodite/modeling/models/paligemma.py
+++ b/aphrodite/modeling/models/paligemma.py
@@ -1,4 +1,3 @@
 
				-import itertools
			
 
				 from typing import (Iterable, List, Literal, Mapping, Optional, Tuple,
			
 
				                     TypedDict, Union)
			
 
				 
			
@@ -24,7 +23,7 @@ from aphrodite.quantization.base_config import QuantizationConfig
 
				 from .interfaces import SupportsMultiModal
			
 
				 from .siglip import (SiglipVisionModel, dummy_image_for_siglip,
			
 
				                      dummy_seq_data_for_siglip, get_max_siglip_image_tokens)
			
 
				-from .utils import filter_weights, merge_multimodal_embeddings
			
 
				+from .utils import group_weights_with_prefix, merge_multimodal_embeddings
			
 
				 
			
 
				 
			
 
				 class PaliGemmaImagePixelInputs(TypedDict):
			
@@ -288,21 +287,18 @@ class PaliGemmaForConditionalGeneration(nn.Module, SupportsMultiModal):
 
				 
			
 
				     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
			
 
				         # prepare weight iterators for components
			
 
				-        vit_weights, mlp_weights, llm_weights = itertools.tee(weights, 3)
			
 
				+        weights_group = group_weights_with_prefix(weights)
			
 
				 
			
 
				         # load vision tower
			
 
				-        vit_weights = filter_weights(vit_weights, "vision_tower")
			
 
				-        self.vision_tower.load_weights(vit_weights)
			
 
				+        self.vision_tower.load_weights(weights_group["vision_tower"])
			
 
				 
			
 
				         # load mlp projector
			
 
				-        mlp_weights = filter_weights(mlp_weights, "multi_modal_projector")
			
 
				         mlp_params_dict = dict(self.multi_modal_projector.named_parameters())
			
 
				-        for name, loaded_weight in mlp_weights:
			
 
				+        for name, loaded_weight in weights_group["multi_modal_projector"]:
			
 
				             param = mlp_params_dict[name]
			
 
				             weight_loader = getattr(param, "weight_loader",
			
 
				                                     default_weight_loader)
			
 
				             weight_loader(param, loaded_weight)
			
 
				 
			
 
				         # load llm backbone
			
 
				-        llm_weights = filter_weights(llm_weights, "language_model")
			
 
				-        self.language_model.load_weights(llm_weights)
			
 
				+        self.language_model.load_weights(weights_group["language_model"])
			
--- a/aphrodite/modeling/models/ultravox.py
+++ b/aphrodite/modeling/models/ultravox.py
@@ -1,7 +1,6 @@
 
				 # Adapted from https://github.com/fixie-ai/ultravox/blob/ecd58c4041030bae2ad15aa6bcf04ab43199ea02/ultravox/model/ultravox_model.py
			
 
				 """PyTorch Ultravox model."""
			
 
				 
			
 
				-import itertools
			
 
				 import math
			
 
				 from array import array
			
 
				 from functools import lru_cache
			
@@ -29,7 +28,8 @@ from aphrodite.modeling.layers.layernorm import RMSNorm
 
				 from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
 
				 from aphrodite.modeling.models.interfaces import SupportsMultiModal
			
 
				-from aphrodite.modeling.models.utils import (filter_weights, flatten_bn,
			
 
				+from aphrodite.modeling.models.utils import (flatten_bn,
			
 
				+                                             group_weights_with_prefix,
			
 
				                                              init_aphrodite_registered_model,
			
 
				                                              merge_multimodal_embeddings)
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
@@ -449,11 +449,10 @@ class UltravoxModel(nn.Module, SupportsMultiModal):
 
				 
			
 
				     def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
			
 
				         # prepare weight iterators for components
			
 
				-        projector_weights, llm_weights = itertools.tee(weights, 2)
			
 
				+        weights_group = group_weights_with_prefix(weights)
			
 
				 
			
 
				         # load projector weights
			
 
				-        projector_weights = filter_weights(projector_weights,
			
 
				-                                           "multi_modal_projector")
			
 
				+        projector_weights = weights_group["multi_modal_projector"]
			
 
				         projector_params_dict = dict(
			
 
				             self.multi_modal_projector.named_parameters())
			
 
				         for name, loaded_weight in projector_weights:
			
@@ -463,5 +462,4 @@ class UltravoxModel(nn.Module, SupportsMultiModal):
 
				             weight_loader(param, loaded_weight)
			
 
				 
			
 
				         # load llm backbone
			
 
				-        llm_weights = filter_weights(llm_weights, "language_model")
			
 
				-        self.language_model.load_weights(llm_weights)
			
 
				+        self.language_model.load_weights(weights_group["language_model"])
			
--- a/aphrodite/modeling/models/utils.py
+++ b/aphrodite/modeling/models/utils.py
@@ -1,3 +1,5 @@
 
				+import itertools
			
 
				+from collections import UserDict
			
 
				 from typing import (Dict, Iterable, List, Literal, Optional, Protocol, Tuple,
			
 
				                     Union, overload)
			
 
				 
			
@@ -16,7 +18,22 @@ from aphrodite.multimodal.base import NestedTensors
 
				 from aphrodite.quantization import QuantizationConfig
			
 
				 
			
 
				 
			
 
				-def filter_weights(weights: Iterable[Tuple[str, torch.Tensor]], prefix: str):
			
 
				+class WeightsGroup(UserDict):
			
 
				+    """
			
 
				+    Wraps grouped weights dictionary for a more informative error message
			
 
				+    when attempting to access a weight component that does not exist.
			
 
				+    """
			
 
				+    def __getitem__(self, key: str) -> int:
			
 
				+        try:
			
 
				+            return super().__getitem__(key)
			
 
				+        except KeyError as exc:
			
 
				+            msg = (f"There is no weights named with the prefix: {key}. "
			
 
				+                   f"Available prefix: {set(self.keys())}")
			
 
				+            raise KeyError(msg) from exc
			
 
				+
			
 
				+
			
 
				+def filter_weights(weights: Iterable[Tuple[str, torch.Tensor]],
			
 
				+                   prefix: str) -> Iterable[Tuple[str, torch.Tensor]]:
			
 
				     """
			
 
				     Helper function to load weights for inner aphrodite models.
			
 
				 
			
@@ -32,6 +49,21 @@ def filter_weights(weights: Iterable[Tuple[str, torch.Tensor]], prefix: str):
 
				             yield name, loaded_weight
			
 
				 
			
 
				 
			
 
				+def group_weights_with_prefix(
			
 
				+    weights: Iterable[Tuple[str, torch.Tensor]]
			
 
				+) -> Dict[str, Iterable[Tuple[str, torch.Tensor]]]:
			
 
				+    """
			
 
				+    Helper function to group weights with prefix
			
 
				+    """
			
 
				+    init_weights, repeated_weights = itertools.tee(weights, 2)
			
 
				+    weights_prefix = {name.split(".")[0] for name, _ in init_weights}
			
 
				+    repeated_weights = itertools.tee(repeated_weights, len(weights_prefix))
			
 
				+    return WeightsGroup({
			
 
				+        prefix: filter_weights(component, prefix)
			
 
				+        for component, prefix in zip(repeated_weights, weights_prefix)
			
 
				+    })
			
 
				+
			
 
				+
			
 
				 def init_aphrodite_registered_model(
			
 
				     hf_config: PretrainedConfig,
			
 
				     cache_config: Optional[CacheConfig],