2 bulan lalu · 0dfa6b60ec
--- a/aphrodite/common/sequence.py
+++ b/aphrodite/common/sequence.py
@@ -1046,72 +1046,6 @@ class IntermediateTensors(
 
				         return f"IntermediateTensors(tensors={self.tensors})"
			
 
				 
			
 
				 
			
 
				-class SamplerOutput(
			
 
				-        msgspec.Struct,
			
 
				-        omit_defaults=True,  # type: ignore[call-arg]
			
 
				-        array_like=True):  # type: ignore[call-arg]
			
 
				-    """For each sequence group, we generate a list of SequenceOutput object,
			
 
				-    each of which contains one possible candidate for the next token.
			
 
				-
			
 
				-    This data structure implements methods, so it can be used like a list, but
			
 
				-    also has optional fields for device tensors.
			
 
				-    """
			
 
				-
			
 
				-    outputs: List[CompletionSequenceGroupOutput]
			
 
				-
			
 
				-    # On-device tensor containing probabilities of each token.
			
 
				-    sampled_token_probs: Optional[torch.Tensor] = None
			
 
				-
			
 
				-    # On-device tensor containing the logprobs of each token.
			
 
				-    logprobs: Optional["torch.Tensor"] = None
			
 
				-
			
 
				-    # On-device tensor containing the sampled token ids.
			
 
				-    sampled_token_ids: Optional[torch.Tensor] = None
			
 
				-    # CPU tensor containing the sampled token ids. Used during multi-step to
			
 
				-    # return the sampled token ids from last rank to AsyncLLMEngine to be
			
 
				-    # 'broadcasted' to all other PP ranks for next step.
			
 
				-    sampled_token_ids_cpu: Optional[torch.Tensor] = None
			
 
				-
			
 
				-    # Spec decode metrics populated by workers.
			
 
				-    spec_decode_worker_metrics: Optional[SpecDecodeWorkerMetrics] = None
			
 
				-
			
 
				-    # Optional last hidden states from the model.
			
 
				-    hidden_states: Optional[torch.Tensor] = None
			
 
				-
			
 
				-    # Optional prefill hidden states from the model
			
 
				-    # (used for models like EAGLE).
			
 
				-    prefill_hidden_states: Optional[torch.Tensor] = None
			
 
				-
			
 
				-    # Time taken in the forward pass for this across all workers
			
 
				-    model_forward_time: Optional[float] = None
			
 
				-
			
 
				-    def __getitem__(self, idx: int):
			
 
				-        return self.outputs[idx]
			
 
				-
			
 
				-    def __setitem__(self, idx: int, value):
			
 
				-        self.outputs[idx] = value
			
 
				-
			
 
				-    def __len__(self):
			
 
				-        return len(self.outputs)
			
 
				-
			
 
				-    def __eq__(self, other: object):
			
 
				-        return isinstance(other,
			
 
				-                          self.__class__) and self.outputs == other.outputs
			
 
				-
			
 
				-    def __repr__(self) -> str:
			
 
				-        """Show the shape of a tensor instead of its values to reduce noise.
			
 
				-        """
			
 
				-        sampled_token_probs_repr = ("None" if self.sampled_token_probs is None
			
 
				-                                    else self.sampled_token_probs.shape)
			
 
				-        sampled_token_ids_repr = ("None" if self.sampled_token_ids is None else
			
 
				-                                  self.sampled_token_ids.shape)
			
 
				-        return (
			
 
				-            f"SamplerOutput(outputs={self.outputs}, "
			
 
				-            f"sampled_token_probs={sampled_token_probs_repr}, "
			
 
				-            f"sampled_token_ids={sampled_token_ids_repr}, "
			
 
				-            f"spec_decode_worker_metrics={self.spec_decode_worker_metrics})")
			
 
				-
			
 
				-
			
 
				 class PoolerOutput(
			
 
				         msgspec.Struct,
			
 
				         omit_defaults=True,  # type: ignore[call-arg]
			
--- a/aphrodite/engine/aphrodite_engine.py
+++ b/aphrodite/engine/aphrodite_engine.py
@@ -24,9 +24,9 @@ from aphrodite.common.outputs import (EmbeddingRequestOutput, RequestOutput,
 
				 from aphrodite.common.pooling_params import PoolingParams
			
 
				 from aphrodite.common.sampling_params import SamplingParams
			
 
				 from aphrodite.common.sequence import (EmbeddingSequenceGroupOutput,
			
 
				-                                       ExecuteModelRequest, SamplerOutput,
			
 
				-                                       Sequence, SequenceGroup,
			
 
				-                                       SequenceGroupMetadata, SequenceStatus)
			
 
				+                                       ExecuteModelRequest, Sequence,
			
 
				+                                       SequenceGroup, SequenceGroupMetadata,
			
 
				+                                       SequenceStatus)
			
 
				 from aphrodite.common.utils import Counter, Device
			
 
				 from aphrodite.engine.args_tools import EngineArgs
			
 
				 from aphrodite.engine.metrics_types import StatLoggerBase, Stats
			
@@ -42,6 +42,7 @@ from aphrodite.inputs import (INPUT_REGISTRY, EncoderDecoderLLMInputs,
 
				                               SingletonPromptInputs)
			
 
				 from aphrodite.inputs.parse import is_explicit_encoder_decoder_prompt
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.multimodal import MultiModalDataDict
			
 
				 from aphrodite.processing.scheduler import (ScheduledSequenceGroup, Scheduler,
			
 
				                                             SchedulerOutputs)
			
--- a/aphrodite/engine/async_aphrodite.py
+++ b/aphrodite/engine/async_aphrodite.py
@@ -14,7 +14,7 @@ from aphrodite.common.config import (DecodingConfig, EngineConfig, LoRAConfig,
 
				 from aphrodite.common.outputs import EmbeddingRequestOutput, RequestOutput
			
 
				 from aphrodite.common.pooling_params import PoolingParams
			
 
				 from aphrodite.common.sampling_params import SamplingParams
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				 from aphrodite.common.utils import print_warning_once
			
 
				 from aphrodite.engine.aphrodite_engine import (AphroditeEngine,
			
 
				                                                DecoderPromptComponents,
			
@@ -29,6 +29,7 @@ from aphrodite.inputs import (EncoderDecoderLLMInputs, LLMInputs, PromptInputs,
 
				                               SingletonPromptInputs)
			
 
				 from aphrodite.inputs.parse import is_explicit_encoder_decoder_prompt
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.processing.scheduler import SchedulerOutputs
			
 
				 from aphrodite.prompt_adapter.request import PromptAdapterRequest
			
 
				 from aphrodite.transformers_utils.tokenizer import AnyTokenizer
			
--- a/aphrodite/engine/output_processor/multi_step.py
+++ b/aphrodite/engine/output_processor/multi_step.py
@@ -11,6 +11,8 @@ from aphrodite.common.sequence import (Sequence, SequenceGroup,
 
				 from aphrodite.common.utils import Counter
			
 
				 from aphrodite.engine.output_processor.interfaces import (
			
 
				     SequenceGroupOutputProcessor)
			
 
				+from aphrodite.engine.output_processor.single_step import (
			
 
				+    single_step_process_prompt_logprob)
			
 
				 from aphrodite.engine.output_processor.stop_checker import StopChecker
			
 
				 from aphrodite.processing.scheduler import Scheduler
			
 
				 from aphrodite.transformers_utils.detokenizer import Detokenizer
			
@@ -46,9 +48,15 @@ class MultiStepOutputProcessor(SequenceGroupOutputProcessor):
 
				 
			
 
				     def process_prompt_logprob(self, seq_group: SequenceGroup,
			
 
				                                outputs: List[SequenceGroupOutput]) -> None:
			
 
				-        # TODO: Prompt logprob currently not implemented in multi step
			
 
				-        # workers.
			
 
				-        self._log_prompt_logprob_unsupported_warning_once()
			
 
				+        """Process prompt logprobs associated with each step of a multi-step-
			
 
				+        scheduled computation.
			
 
				+        Args:
			
 
				+          seq_group: the outputs are associated with this :class:`SequenceGroup`
			
 
				+          outputs: the :class:`SequenceGroupOutput`s for all scheduler steps
			
 
				+        """
			
 
				+        for output in outputs:
			
 
				+            # Concatenate single-step prompt logprob processing results.
			
 
				+            single_step_process_prompt_logprob(self, seq_group, output)
			
 
				 
			
 
				     @staticmethod
			
 
				     @functools.lru_cache()
			
--- a/aphrodite/engine/output_processor/single_step.py
+++ b/aphrodite/engine/output_processor/single_step.py
@@ -13,6 +13,42 @@ from aphrodite.processing.scheduler import Scheduler
 
				 from aphrodite.transformers_utils.detokenizer import Detokenizer
			
 
				 
			
 
				 
			
 
				+def single_step_process_prompt_logprob(
			
 
				+        sg_output_proc: SequenceGroupOutputProcessor, seq_group: SequenceGroup,
			
 
				+        output: SequenceGroupOutput) -> None:
			
 
				+    """Process prompt logprobs associated with the :class:`SequenceGroupOutput`
			
 
				+    for a given step.
			
 
				+    Do nothing if the output has no prompt logprobs.
			
 
				+    Account for the fact that transformers do not compute first-token logprobs.
			
 
				+
			
 
				+    Args:
			
 
				+      sg_output_proc: :class:`SequenceGroupOutputProcessor` instance
			
 
				+      seq_group: the output is associated with this :class:`SequenceGroup`
			
 
				+      output: the :class:`SequenceGroupOutput` for a single scheduler step
			
 
				+    """
			
 
				+    prompt_logprobs = output.prompt_logprobs
			
 
				+
			
 
				+    # If this is the first (or only) "chunk" of the prefill, we need
			
 
				+    # to prepend None to the list of prompt logprobs. The reason for this
			
 
				+    # is that for N prompt tokens, the Sampler will generate N-1 total
			
 
				+    # prompt logprobs during prefill since the token at idx 0 will not
			
 
				+    # have a logprob associated with it.
			
 
				+    if prompt_logprobs is not None:
			
 
				+        if not seq_group.prompt_logprobs:
			
 
				+            prompt_logprobs = [None] + prompt_logprobs
			
 
				+            seq_group.prompt_logprobs = []
			
 
				+
			
 
				+        assert hasattr(sg_output_proc, 'detokenizer')
			
 
				+        if (seq_group.sampling_params.detokenize
			
 
				+                and sg_output_proc.detokenizer):
			
 
				+            sg_output_proc.detokenizer.decode_prompt_logprobs_inplace(
			
 
				+                seq_group,
			
 
				+                prompt_logprobs,
			
 
				+                position_offset=len(seq_group.prompt_logprobs))
			
 
				+
			
 
				+        seq_group.prompt_logprobs.extend(prompt_logprobs)
			
 
				+
			
 
				+
			
 
				 class SingleStepOutputProcessor(SequenceGroupOutputProcessor):
			
 
				     """SequenceGroupOutputProcessor which handles "output processing" logic,
			
 
				     which happens after the model returns generated token ids and before
			
@@ -57,25 +93,16 @@ class SingleStepOutputProcessor(SequenceGroupOutputProcessor):
 
				 
			
 
				     def process_prompt_logprob(self, seq_group: SequenceGroup,
			
 
				                                outputs: List[SequenceGroupOutput]) -> None:
			
 
				+        """Process prompt logprobs associated with one step of a single-step-
			
 
				+        scheduled computation.
			
 
				+        
			
 
				+        Args:
			
 
				+          seq_group: the output is associated with this :class:`SequenceGroup`
			
 
				+          output: the :class:`SequenceGroupOutput` for a single scheduler step
			
 
				+        """
			
 
				         assert len(outputs) == 1, ("Single step should only has 1 output.")
			
 
				         output = outputs[0]
			
 
				-        prompt_logprobs = output.prompt_logprobs
			
 
				-
			
 
				-        # If this is the first (or only) "chunk" of the prefill, we need
			
 
				-        # to prepend None to the list of prompt logprobs. The reason for this
			
 
				-        # is that for N prompt tokens, the Sampler will generate N-1 total
			
 
				-        # prompt logprobs during prefill since the token at idx 0 will not
			
 
				-        # have a logprob associated with it.
			
 
				-        if prompt_logprobs is not None:
			
 
				-            if not seq_group.prompt_logprobs:
			
 
				-                prompt_logprobs = [None] + prompt_logprobs
			
 
				-                seq_group.prompt_logprobs = []
			
 
				-            if seq_group.sampling_params.detokenize and self.detokenizer:
			
 
				-                self.detokenizer.decode_prompt_logprobs_inplace(
			
 
				-                    seq_group,
			
 
				-                    prompt_logprobs,
			
 
				-                    position_offset=len(seq_group.prompt_logprobs))
			
 
				-            seq_group.prompt_logprobs.extend(prompt_logprobs)
			
 
				+        single_step_process_prompt_logprob(self, seq_group, output)
			
 
				 
			
 
				     def _process_sequence_group_outputs(self, seq_group: SequenceGroup,
			
 
				                                         outputs: SequenceGroupOutput,
			
--- a/aphrodite/engine/output_processor/util.py
+++ b/aphrodite/engine/output_processor/util.py
@@ -2,8 +2,8 @@ from typing import List
 
				 from typing import Sequence as GenericSequence
			
 
				 from typing import Union
			
 
				 
			
 
				-from aphrodite.common.sequence import (PoolerOutput, SamplerOutput,
			
 
				-                                       SequenceGroupOutput)
			
 
				+from aphrodite.common.sequence import PoolerOutput, SequenceGroupOutput
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 
			
 
				 
			
 
				 def create_output_by_sequence_group(
			
--- a/aphrodite/engine/protocol.py
+++ b/aphrodite/engine/protocol.py
@@ -6,9 +6,9 @@ from aphrodite.common.config import DecodingConfig, ModelConfig
 
				 from aphrodite.common.outputs import EmbeddingRequestOutput, RequestOutput
			
 
				 from aphrodite.common.pooling_params import PoolingParams
			
 
				 from aphrodite.common.sampling_params import SamplingParams
			
 
				-from aphrodite.common.sequence import SamplerOutput
			
 
				 from aphrodite.inputs.data import PromptInputs
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.processing.scheduler import SchedulerOutputs
			
 
				 from aphrodite.prompt_adapter.request import PromptAdapterRequest
			
 
				 
			
--- a/aphrodite/executor/cpu_executor.py
+++ b/aphrodite/executor/cpu_executor.py
@@ -7,7 +7,7 @@ from loguru import logger
 
				 
			
 
				 import aphrodite.common.envs as envs
			
 
				 from aphrodite.common.config import CacheConfig, ModelConfig, SchedulerConfig
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				 from aphrodite.common.utils import (GiB_bytes, get_aphrodite_instance_id,
			
 
				                                     get_distributed_init_method, get_open_port,
			
 
				                                     make_async)
			
@@ -16,6 +16,7 @@ from aphrodite.executor.multiproc_worker_utils import (ProcessWorkerWrapper,
 
				                                                        ResultHandler,
			
 
				                                                        WorkerMonitor)
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.prompt_adapter.request import PromptAdapterRequest
			
 
				 from aphrodite.task_handler.worker_base import WorkerWrapperBase
			
 
				 
			
--- a/aphrodite/executor/distributed_gpu_executor.py
+++ b/aphrodite/executor/distributed_gpu_executor.py
@@ -4,10 +4,11 @@ from typing import Any, Awaitable, Dict, List, Optional, Set, Tuple, Union
 
				 
			
 
				 from loguru import logger
			
 
				 
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				 from aphrodite.executor.executor_base import ExecutorAsyncBase
			
 
				 from aphrodite.executor.gpu_executor import GPUExecutor
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 
			
 
				 
			
 
				 class DistributedGPUExecutor(GPUExecutor):
			
--- a/aphrodite/executor/executor_base.py
+++ b/aphrodite/executor/executor_base.py
@@ -5,8 +5,9 @@ from aphrodite.common.config import (CacheConfig, DeviceConfig, LoadConfig,
 
				                                      LoRAConfig, ModelConfig, ParallelConfig,
			
 
				                                      PromptAdapterConfig, SchedulerConfig,
			
 
				                                      SpeculativeConfig)
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.prompt_adapter.request import PromptAdapterRequest
			
 
				 
			
 
				 
			
--- a/aphrodite/executor/gpu_executor.py
+++ b/aphrodite/executor/gpu_executor.py
@@ -2,12 +2,12 @@ from typing import Any, Callable, Dict, List, Optional, Set, Tuple, Type, Union
 
				 
			
 
				 from loguru import logger
			
 
				 
			
 
				-from aphrodite.common.sequence import (ExecuteModelRequest, PoolerOutput,
			
 
				-                                       SamplerOutput)
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest, PoolerOutput
			
 
				 from aphrodite.common.utils import (get_distributed_init_method, get_ip,
			
 
				                                     get_open_port, make_async)
			
 
				 from aphrodite.executor.executor_base import ExecutorAsyncBase, ExecutorBase
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.prompt_adapter.request import PromptAdapterRequest
			
 
				 from aphrodite.task_handler.worker_base import WorkerBase, WorkerWrapperBase
			
 
				 
			
--- a/aphrodite/executor/multiproc_gpu_executor.py
+++ b/aphrodite/executor/multiproc_gpu_executor.py
@@ -9,7 +9,7 @@ from typing import Any, List, Optional
 
				 import torch
			
 
				 from loguru import logger
			
 
				 
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				 from aphrodite.common.utils import (_run_task_with_lock,
			
 
				                                     cuda_device_count_stateless,
			
 
				                                     get_aphrodite_instance_id,
			
@@ -21,6 +21,7 @@ from aphrodite.executor.gpu_executor import create_worker
 
				 from aphrodite.executor.multiproc_worker_utils import (ProcessWorkerWrapper,
			
 
				                                                        ResultHandler,
			
 
				                                                        WorkerMonitor)
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.triton_utils import maybe_set_triton_cache_manager
			
 
				 
			
 
				 
			
--- a/aphrodite/executor/neuron_executor.py
+++ b/aphrodite/executor/neuron_executor.py
@@ -1,10 +1,11 @@
 
				 from typing import List, Set, Tuple
			
 
				 
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				 from aphrodite.common.utils import (get_distributed_init_method, get_ip,
			
 
				                                     get_open_port, make_async)
			
 
				 from aphrodite.executor.executor_base import ExecutorAsyncBase, ExecutorBase
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 
			
 
				 
			
 
				 class NeuronExecutor(ExecutorBase):
			
--- a/aphrodite/executor/openvino_executor.py
+++ b/aphrodite/executor/openvino_executor.py
@@ -7,11 +7,12 @@ from loguru import logger
 
				 
			
 
				 import aphrodite.common.envs as envs
			
 
				 from aphrodite.common.config import CacheConfig, ModelConfig
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				 from aphrodite.common.utils import (GiB_bytes, get_distributed_init_method,
			
 
				                                     get_ip, get_open_port, make_async)
			
 
				 from aphrodite.executor.executor_base import ExecutorAsyncBase, ExecutorBase
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 
			
 
				 APHRODITE_OPENVINO_KVCACHE_SPACE = envs.APHRODITE_OPENVINO_KVCACHE_SPACE
			
 
				 APHRODITE_OPENVINO_CPU_KV_CACHE_PRECISION = (
			
--- a/aphrodite/executor/ray_gpu_executor.py
+++ b/aphrodite/executor/ray_gpu_executor.py
@@ -8,7 +8,7 @@ import msgspec
 
				 from loguru import logger
			
 
				 
			
 
				 import aphrodite.common.envs as envs
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				 from aphrodite.common.utils import (_run_task_with_lock,
			
 
				                                     get_aphrodite_instance_id,
			
 
				                                     get_distributed_init_method, get_ip,
			
@@ -17,6 +17,7 @@ from aphrodite.executor.distributed_gpu_executor import (  # yapf: disable
 
				     DistributedGPUExecutor, DistributedGPUExecutorAsync)
			
 
				 from aphrodite.executor.msgspec_utils import encode_hook
			
 
				 from aphrodite.executor.ray_utils import RayWorkerWrapper, ray
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 
			
 
				 if ray is not None:
			
 
				     from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
			
--- a/aphrodite/executor/ray_tpu_executor.py
+++ b/aphrodite/executor/ray_tpu_executor.py
@@ -8,13 +8,14 @@ from typing import (TYPE_CHECKING, Any, Awaitable, Dict, List, Optional, Tuple,
 
				 from loguru import logger
			
 
				 
			
 
				 import aphrodite.common.envs as envs
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				 from aphrodite.common.utils import (get_aphrodite_instance_id,
			
 
				                                     get_distributed_init_method, get_ip,
			
 
				                                     get_open_port, make_async)
			
 
				 from aphrodite.executor.executor_base import ExecutorAsyncBase
			
 
				 from aphrodite.executor.ray_utils import RayWorkerWrapper, ray
			
 
				 from aphrodite.executor.tpu_executor import TPUExecutor
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 
			
 
				 if ray is not None:
			
 
				     from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
			
--- a/aphrodite/executor/tpu_executor.py
+++ b/aphrodite/executor/tpu_executor.py
@@ -3,11 +3,12 @@ from typing import Any, Dict, List, Optional, Set, Tuple
 
				 import torch
			
 
				 from loguru import logger
			
 
				 
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				 from aphrodite.common.utils import (get_distributed_init_method, get_ip,
			
 
				                                     get_open_port, make_async)
			
 
				 from aphrodite.executor.executor_base import ExecutorAsyncBase, ExecutorBase
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 
			
 
				 
			
 
				 class TPUExecutor(ExecutorBase):
			
--- a/aphrodite/executor/xpu_executor.py
+++ b/aphrodite/executor/xpu_executor.py
@@ -7,11 +7,11 @@ from aphrodite.common.config import (CacheConfig, DeviceConfig, LoadConfig,
 
				                                      LoRAConfig, ModelConfig, ParallelConfig,
			
 
				                                      PromptAdapterConfig, SchedulerConfig,
			
 
				                                      SpeculativeConfig)
			
 
				-from aphrodite.common.sequence import (ExecuteModelRequest, PoolerOutput,
			
 
				-                                       SamplerOutput)
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest, PoolerOutput
			
 
				 from aphrodite.common.utils import make_async
			
 
				 from aphrodite.executor.executor_base import ExecutorAsyncBase
			
 
				 from aphrodite.executor.gpu_executor import GPUExecutor
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.task_handler.worker_base import WorkerBase
			
 
				 
			
 
				 
			
--- a/aphrodite/modeling/layers/sampler.py
+++ b/aphrodite/modeling/layers/sampler.py
@@ -1,10 +1,12 @@
 
				 """A layer that samples the next tokens from the model's outputs."""
			
 
				 import itertools
			
 
				 import warnings
			
 
				+from dataclasses import dataclass
			
 
				 from enum import IntEnum
			
 
				 from math import inf
			
 
				-from typing import Dict, List, Optional, Tuple
			
 
				+from typing import Dict, List, Optional, Tuple, Union
			
 
				 
			
 
				+import msgspec
			
 
				 import torch
			
 
				 import torch.nn as nn
			
 
				 from loguru import logger
			
@@ -14,7 +16,8 @@ import aphrodite.common.envs as envs
 
				 from aphrodite.common.sampling_params import SamplingType
			
 
				 from aphrodite.common.sequence import (CompletionSequenceGroupOutput, Logprob,
			
 
				                                        PromptLogprobs, SampleLogprobs,
			
 
				-                                       SamplerOutput, SequenceOutput)
			
 
				+                                       SequenceOutput)
			
 
				+from aphrodite.spec_decode.metrics import SpecDecodeWorkerMetrics
			
 
				 from aphrodite.triton_utils import HAS_TRITON
			
 
				 
			
 
				 if HAS_TRITON:
			
@@ -27,6 +30,115 @@ from aphrodite.modeling.sampling_metadata import (SamplingMetadata,
 
				 # (num_token_ids, num_parent_ids) per sequence group.
			
 
				 SampleResultType = List[Tuple[List[int], List[int]]]
			
 
				 
			
 
				+# Types of temporary data structures used for
			
 
				+# computing sample_result
			
 
				+SampleMetadataType = Dict[SamplingType, Tuple[List[int],
			
 
				+                                              List[SequenceGroupToSample]]]
			
 
				+MultinomialSamplesType = Dict[SamplingType, torch.Tensor]
			
 
				+SampleResultsDictType = Dict[int, Tuple[List[int], List[int]]]
			
 
				+
			
 
				+
			
 
				+# Encapsulates temporary data structures for computing
			
 
				+# sample_result.
			
 
				+#
			
 
				+# * For multi-step scheduling: must be returned
			
 
				+#   by `Sampler.forward()` and used later to compute the pythonized
			
 
				+#   sample_result
			
 
				+#
			
 
				+# * For single-step scheduling: consumed immediately
			
 
				+#   inside `Sampler.forward()` to compute pythonized sample_result.
			
 
				+@dataclass
			
 
				+class SampleResultArgsType:
			
 
				+    sample_metadata: SampleMetadataType
			
 
				+    multinomial_samples: MultinomialSamplesType
			
 
				+    sample_results_dict: SampleResultsDictType
			
 
				+    sampling_metadata: SamplingMetadata
			
 
				+    greedy_samples: Optional[torch.Tensor]
			
 
				+    beam_search_logprobs: Optional[torch.Tensor]
			
 
				+
			
 
				+
			
 
				+# Union of non-deferred (single-step scheduling)
			
 
				+# vs deferred (multi-step scheduling)
			
 
				+# sample result types
			
 
				+MaybeDeferredSampleResultType = Union[SampleResultType, SampleResultArgsType]
			
 
				+
			
 
				+# Abbreviation of the _sample() return type
			
 
				+SampleReturnType = Tuple[MaybeDeferredSampleResultType, Optional[torch.Tensor]]
			
 
				+
			
 
				+
			
 
				+class SamplerOutput(
			
 
				+        msgspec.Struct,
			
 
				+        omit_defaults=True,  # type: ignore[call-arg]
			
 
				+        array_like=True):  # type: ignore[call-arg]
			
 
				+    """For each sequence group, we generate a list of SequenceOutput object,
			
 
				+    each of which contains one possible candidate for the next token.
			
 
				+    This data structure implements methods, so it can be used like a list, but
			
 
				+    also has optional fields for device tensors.
			
 
				+    """
			
 
				+
			
 
				+    outputs: List[CompletionSequenceGroupOutput]
			
 
				+
			
 
				+    # On-device tensor containing probabilities of each token.
			
 
				+    sampled_token_probs: Optional[torch.Tensor] = None
			
 
				+
			
 
				+    # On-device tensor containing the logprobs of each token.
			
 
				+    logprobs: Optional["torch.Tensor"] = None
			
 
				+
			
 
				+    # Holds either (1) the pythonized sampler result (single-step scheduling)
			
 
				+    # or (2) what will be arguments for later deferred pythonization of the
			
 
				+    # sampler result (muliti-step scheduling)
			
 
				+    deferred_sample_results_args: Optional[SampleResultArgsType] = None
			
 
				+
			
 
				+    # On-device tensor containing the sampled token ids.
			
 
				+    sampled_token_ids: Optional[torch.Tensor] = None
			
 
				+    # CPU tensor containing the sampled token ids. Used during multi-step to
			
 
				+    # return the sampled token ids from last rank to AsyncLLMEngine to be
			
 
				+    # 'broadcasted' to all other PP ranks for next step.
			
 
				+    sampled_token_ids_cpu: Optional[torch.Tensor] = None
			
 
				+
			
 
				+    # Spec decode metrics populated by workers.
			
 
				+    spec_decode_worker_metrics: Optional[SpecDecodeWorkerMetrics] = None
			
 
				+
			
 
				+    # Optional last hidden states from the model.
			
 
				+    hidden_states: Optional[torch.Tensor] = None
			
 
				+
			
 
				+    # Optional prefill hidden states from the model
			
 
				+    # (used for models like EAGLE).
			
 
				+    prefill_hidden_states: Optional[torch.Tensor] = None
			
 
				+
			
 
				+    # Time taken in the forward pass for this across all workers
			
 
				+    model_forward_time: Optional[float] = None
			
 
				+
			
 
				+    # Time taken in the model execute function. This will include model forward,
			
 
				+    # block/sync across workers, cpu-gpu sync time and sampling time.
			
 
				+    model_execute_time: Optional[float] = None
			
 
				+
			
 
				+    def __getitem__(self, idx: int):
			
 
				+        return self.outputs[idx]
			
 
				+
			
 
				+    def __setitem__(self, idx: int, value):
			
 
				+        self.outputs[idx] = value
			
 
				+
			
 
				+    def __len__(self):
			
 
				+        return len(self.outputs)
			
 
				+
			
 
				+    def __eq__(self, other: object):
			
 
				+        return isinstance(other,
			
 
				+                          self.__class__) and self.outputs == other.outputs
			
 
				+
			
 
				+    def __repr__(self) -> str:
			
 
				+        """Show the shape of a tensor instead of its values to reduce noise.
			
 
				+        """
			
 
				+        sampled_token_probs_repr = ("None" if self.sampled_token_probs is None
			
 
				+                                    else self.sampled_token_probs.shape)
			
 
				+        sampled_token_ids_repr = ("None" if self.sampled_token_ids is None else
			
 
				+                                  self.sampled_token_ids.shape)
			
 
				+        return (
			
 
				+            f"SamplerOutput(outputs={self.outputs}, "
			
 
				+            f"sampled_token_probs={sampled_token_probs_repr}, "
			
 
				+            f"sampled_token_ids={sampled_token_ids_repr}, "
			
 
				+            f"spec_decode_worker_metrics={self.spec_decode_worker_metrics})")
			
 
				+
			
 
				 # There isn't a "safe" temperature range for fp16 logits.
			
 
				 # This value was chosen because 1/2e-5 is just under the 65k fp16 max, meaning
			
 
				 # that this temperature well-uses the fp16 space after the logits are offset.
			
@@ -135,6 +247,18 @@ class Sampler(nn.Module):
 
				         sampling_metadata: SamplingMetadata,
			
 
				     ) -> Optional[SamplerOutput]:
			
 
				         """
			
 
				+        Single-step scheduling:
			
 
				+        * Perform GPU-side sampling computation & compute
			
 
				+          GPU-side logprobs tensor
			
 
				+        * Pythonize sampling result & logprobs tensor
			
 
				+        Multi-step scheduling:
			
 
				+        * Perform GPU-side sampling computation & compute
			
 
				+          GPU-side logprobs tensor
			
 
				+        * Defer Pythonization of sampling result & logprobs
			
 
				+          tensor
			
 
				+        * Encapsulate arguments required for deferred Pythonization
			
 
				+          in the :class:`SamplerOutput` structure
			
 
				+
			
 
				         Args:
			
 
				             logits: (num_tokens, vocab_size).
			
 
				             sampling_metadata: Metadata for sampling.
			
@@ -425,7 +549,7 @@ class Sampler(nn.Module):
 
				         logprobs = torch.log_softmax(logits, dim=-1, dtype=torch.float)
			
 
				 
			
 
				         # Sample the next tokens.
			
 
				-        sample_results, maybe_sampled_tokens_tensor = _sample(
			
 
				+        maybe_deferred_sample_results, maybe_sampled_tokens_tensor = _sample(
			
 
				             probs,
			
 
				             logprobs,
			
 
				             sampling_metadata,
			
@@ -435,20 +559,28 @@ class Sampler(nn.Module):
 
				         )
			
 
				 
			
 
				         if self.include_gpu_probs_tensor:
			
 
				+            # Since we will defer sampler result Pythonization,
			
 
				+            # preserve GPU-side tensors in support of later
			
 
				+            # deferred pythonization of logprobs
			
 
				             assert maybe_sampled_tokens_tensor is not None
			
 
				             on_device_tensors = (probs, logprobs, maybe_sampled_tokens_tensor)
			
 
				         else:
			
 
				+            # Since Pythonization has already happened, don't preserve
			
 
				+            # GPU-side tensors.
			
 
				             on_device_tensors = None
			
 
				 
			
 
				         # Get the logprobs query results.
			
 
				         prompt_logprobs = None
			
 
				         sample_logprobs = None
			
 
				         if not sampling_metadata.skip_sampler_cpu_output:
			
 
				-            prompt_logprobs, sample_logprobs = _get_logprobs(
			
 
				-                logprobs, sampling_metadata, sample_results)
			
 
				+            # Pythonize logprobs now (GPU -> CPU); do not defer.
			
 
				+            assert not isinstance(maybe_deferred_sample_results,
			
 
				+                                  SampleResultArgsType)
			
 
				+            prompt_logprobs, sample_logprobs = get_logprobs(
			
 
				+                logprobs, sampling_metadata, maybe_deferred_sample_results)
			
 
				 
			
 
				         return _build_sampler_output(
			
 
				-            sample_results,
			
 
				+            maybe_deferred_sample_results,
			
 
				             sampling_metadata,
			
 
				             prompt_logprobs,
			
 
				             sample_logprobs,
			
@@ -1205,6 +1337,57 @@ def _top_k_top_p_multinomial_with_kernels(
 
				     return batch_next_token_ids.view(-1, num_samples)
			
 
				 
			
 
				 
			
 
				+def get_pythonized_sample_results(
			
 
				+        sample_result_args: SampleResultArgsType) -> SampleResultType:
			
 
				+    """This function consumes GPU-side sampler results and computes
			
 
				+    Pythonized CPU-side sampler results (GPU -> CPU sync.)
			
 
				+    Single-step scheduling: this function is invoked at sampling-time
			
 
				+    for immediate Pythonization.
			
 
				+    Multi-step scheduling: Pythonization is deferred until after multiple
			
 
				+    GPU-side steps have been completed.
			
 
				+
			
 
				+    Args:
			
 
				+      sample_result_args: GPU-side inputs to the Pythonization process
			
 
				+    Returns:
			
 
				+      Pythonized sampler results
			
 
				+    """
			
 
				+
			
 
				+    (
			
 
				+        sample_metadata,
			
 
				+        sampling_metadata,
			
 
				+        greedy_samples,
			
 
				+        multinomial_samples,
			
 
				+        beam_search_logprobs,
			
 
				+        sample_results_dict,
			
 
				+    ) = (
			
 
				+        sample_result_args.sample_metadata,
			
 
				+        sample_result_args.sampling_metadata,
			
 
				+        sample_result_args.greedy_samples,
			
 
				+        sample_result_args.multinomial_samples,
			
 
				+        sample_result_args.beam_search_logprobs,
			
 
				+        sample_result_args.sample_results_dict,
			
 
				+    )
			
 
				+
			
 
				+    for sampling_type in SamplingType:
			
 
				+        if sampling_type not in sample_metadata:
			
 
				+            continue
			
 
				+        (seq_group_id, seq_groups) = sample_metadata[sampling_type]
			
 
				+        if sampling_type == SamplingType.GREEDY:
			
 
				+            sample_results = _greedy_sample(seq_groups, greedy_samples)
			
 
				+        elif sampling_type in (SamplingType.RANDOM, SamplingType.RANDOM_SEED):
			
 
				+            sample_results = _random_sample(seq_groups,
			
 
				+                                            multinomial_samples[sampling_type])
			
 
				+        elif sampling_type == SamplingType.BEAM:
			
 
				+            sample_results = _beam_search_sample(seq_groups,
			
 
				+                                                 beam_search_logprobs)
			
 
				+        sample_results_dict.update(zip(seq_group_id, sample_results))
			
 
				+
			
 
				+    return [
			
 
				+        sample_results_dict.get(i, ([], []))
			
 
				+        for i in range(len(sampling_metadata.seq_groups))
			
 
				+    ]
			
 
				+
			
 
				+
			
 
				 def _sample_with_torch(
			
 
				     probs: torch.Tensor,
			
 
				     logprobs: torch.Tensor,
			
@@ -1212,7 +1395,18 @@ def _sample_with_torch(
 
				     sampling_tensors: SamplingTensors,
			
 
				     include_gpu_probs_tensor: bool,
			
 
				     modify_greedy_probs: bool,
			
 
				-) -> Tuple[List[Tuple[List[int], List[int]]], Optional[torch.Tensor]]:
			
 
				+) -> SampleReturnType:
			
 
				+    """Torch-oriented _sample() implementation.
			
 
				+
			
 
				+    Single-step scheduling: 
			
 
				+    * Perform GPU-side sampling computation
			
 
				+    * Immediately Pythonize sampling result
			
 
				+
			
 
				+    Multi-step scheduling:
			
 
				+    * Perform GPU-side sampling computation
			
 
				+    * Defer Pythonization & preserve GPU-side
			
 
				+      tensors required for Pythonization
			
 
				+    """
			
 
				     categorized_seq_group_ids = {t: [] for t in SamplingType}
			
 
				     categorized_sample_indices = sampling_metadata.categorized_sample_indices
			
 
				     for i, seq_group in enumerate(sampling_metadata.seq_groups):
			
@@ -1220,9 +1414,11 @@ def _sample_with_torch(
 
				         sampling_type = sampling_params.sampling_type
			
 
				         categorized_seq_group_ids[sampling_type].append(i)
			
 
				 
			
 
				-    sample_results_dict: Dict[int, Tuple[List[int], List[int]]] = {}
			
 
				-    sample_metadata = {}
			
 
				-    multinomial_samples = {}
			
 
				+    sample_results_dict: SampleResultsDictType = {}
			
 
				+    sample_metadata: SampleMetadataType = {}
			
 
				+    multinomial_samples: MultinomialSamplesType = {}
			
 
				+    greedy_samples: Optional[torch.Tensor] = None
			
 
				+    beam_search_logprobs: Optional[torch.Tensor] = None
			
 
				     # Create output tensor for sampled token ids.
			
 
				     if include_gpu_probs_tensor:
			
 
				         sampled_token_ids_tensor = torch.empty(logprobs.shape[0],
			
@@ -1293,32 +1489,29 @@ def _sample_with_torch(
 
				         else:
			
 
				             raise ValueError(f"Unsupported sampling type: {sampling_type}")
			
 
				 
			
 
				-    # GPU<->CPU sync happens in the loop below.
			
 
				-    # This also converts the sample output to Python objects.
			
 
				+    # Encapsulate arguments for computing Pythonized sampler
			
 
				+    # results, whether deferred or otherwise.
			
 
				+    maybe_deferred_args = SampleResultArgsType(
			
 
				+        sampling_metadata=sampling_metadata,
			
 
				+        sample_metadata=sample_metadata,
			
 
				+        multinomial_samples=multinomial_samples,
			
 
				+        greedy_samples=greedy_samples,
			
 
				+        beam_search_logprobs=beam_search_logprobs,
			
 
				+        sample_results_dict=sample_results_dict)
			
 
				+
			
 
				     if not sampling_metadata.skip_sampler_cpu_output:
			
 
				-        for sampling_type in SamplingType:
			
 
				-            if sampling_type not in sample_metadata:
			
 
				-                continue
			
 
				-            (seq_group_id, seq_groups) = sample_metadata[sampling_type]
			
 
				-            if sampling_type == SamplingType.GREEDY:
			
 
				-                sample_results = _greedy_sample(seq_groups, greedy_samples)
			
 
				-            elif sampling_type in (SamplingType.RANDOM,
			
 
				-                                   SamplingType.RANDOM_SEED):
			
 
				-                sample_results = _random_sample(
			
 
				-                    seq_groups, multinomial_samples[sampling_type])
			
 
				-            elif sampling_type == SamplingType.BEAM:
			
 
				-                sample_results = _beam_search_sample(seq_groups,
			
 
				-                                                     beam_search_logprobs)
			
 
				-            sample_results_dict.update(zip(seq_group_id, sample_results))
			
 
				-
			
 
				-        sample_results = [
			
 
				-            sample_results_dict.get(i, ([], []))
			
 
				-            for i in range(len(sampling_metadata.seq_groups))
			
 
				-        ]
			
 
				+        # GPU<->CPU sync happens here.
			
 
				+        # This also converts the sampler output to a Python object.
			
 
				+        # Return Pythonized sampler result & sampled token ids
			
 
				+        return get_pythonized_sample_results(
			
 
				+            maybe_deferred_args), sampled_token_ids_tensor
			
 
				     else:
			
 
				-        sample_results = []
			
 
				-
			
 
				-    return sample_results, sampled_token_ids_tensor
			
 
				+        # Defer sampler result Pythonization; return deferred
			
 
				+        # Pythonization args & sampled token ids
			
 
				+        return (
			
 
				+            maybe_deferred_args,
			
 
				+            sampled_token_ids_tensor,
			
 
				+        )
			
 
				 
			
 
				 
			
 
				 def _sample_with_triton_kernel(
			
@@ -1396,10 +1589,13 @@ def _sample_with_triton_kernel(
 
				 
			
 
				 
			
 
				 def _sample(
			
 
				-    probs: torch.Tensor, logprobs: torch.Tensor,
			
 
				-    sampling_metadata: SamplingMetadata, sampling_tensors: SamplingTensors,
			
 
				-    include_gpu_probs_tensor: bool, modify_greedy_probs: bool
			
 
				-) -> Tuple[List[Tuple[List[int], List[int]]], Optional[torch.Tensor]]:
			
 
				+    probs: torch.Tensor,
			
 
				+    logprobs: torch.Tensor,
			
 
				+    sampling_metadata: SamplingMetadata,
			
 
				+    sampling_tensors: SamplingTensors,
			
 
				+    include_gpu_probs_tensor: bool,
			
 
				+    modify_greedy_probs: bool,
			
 
				+) -> SampleReturnType:
			
 
				     """
			
 
				     Args:
			
 
				         probs: (num_query_tokens_in_batch, num_vocab)
			
@@ -1441,7 +1637,7 @@ def _get_ranks(x: torch.Tensor, indices: torch.Tensor) -> torch.Tensor:
 
				     return (x > vals[:, None]).long().sum(1).add_(1)
			
 
				 
			
 
				 
			
 
				-def _get_logprobs(
			
 
				+def get_logprobs(
			
 
				     logprobs: torch.Tensor,
			
 
				     sampling_metadata: SamplingMetadata,
			
 
				     sample_results: List[Tuple[List[int], List[int]]],
			
@@ -1755,7 +1951,7 @@ def _modify_greedy_probs_inplace(logprobs: torch.Tensor, probs: torch.Tensor,
 
				 
			
 
				 
			
 
				 def _build_sampler_output(
			
 
				-    sample_results: SampleResultType,
			
 
				+    maybe_deferred_sample_results: MaybeDeferredSampleResultType,
			
 
				     sampling_metadata: SamplingMetadata,
			
 
				     prompt_logprobs: Optional[List[Optional[PromptLogprobs]]],
			
 
				     sample_logprobs: Optional[List[SampleLogprobs]],
			
@@ -1771,14 +1967,21 @@ def _build_sampler_output(
 
				             speculative decoding rejection sampling.
			
 
				     """
			
 
				     sampler_output: List[CompletionSequenceGroupOutput] = []
			
 
				-    if not skip_sampler_cpu_output:
			
 
				+
			
 
				+    if skip_sampler_cpu_output:
			
 
				+        assert isinstance(maybe_deferred_sample_results, SampleResultArgsType)
			
 
				+        deferred_sample_results_args = maybe_deferred_sample_results
			
 
				+    else:
			
 
				         assert prompt_logprobs is not None
			
 
				         assert sample_logprobs is not None
			
 
				+        assert not isinstance(maybe_deferred_sample_results,
			
 
				+                              SampleResultArgsType)
			
 
				+        deferred_sample_results_args = None
			
 
				 
			
 
				         for (seq_group, sample_result, group_prompt_logprobs,
			
 
				              group_sample_logprobs) in zip(sampling_metadata.seq_groups,
			
 
				-                                           sample_results, prompt_logprobs,
			
 
				-                                           sample_logprobs):
			
 
				+                                           maybe_deferred_sample_results,
			
 
				+                                           prompt_logprobs, sample_logprobs):
			
 
				             seq_ids = seq_group.seq_ids
			
 
				             next_token_ids, parent_ids = sample_result
			
 
				             seq_outputs: List[SequenceOutput] = []
			
@@ -1802,7 +2005,7 @@ def _build_sampler_output(
 
				         sampled_token_probs=sampled_token_probs,
			
 
				         sampled_token_ids=sampled_token_ids,
			
 
				         logprobs=logprobs_tensor,
			
 
				-    )
			
 
				+        deferred_sample_results_args=deferred_sample_results_args)
			
 
				 
			
 
				 
			
 
				 def _get_next_prompt_tokens(seq_group: SequenceGroupToSample) -> List[str]:
			
--- a/aphrodite/modeling/model_loader/neuron.py
+++ b/aphrodite/modeling/model_loader/neuron.py
@@ -10,9 +10,8 @@ from transformers import PretrainedConfig
 
				 
			
 
				 from aphrodite.common.config import (ModelConfig, ParallelConfig,
			
 
				                                      SchedulerConfig)
			
 
				-from aphrodite.common.sequence import SamplerOutput
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
 
				 
			
 
				 TORCH_DTYPE_TO_NEURON_AMP = {
			
--- a/aphrodite/modeling/model_loader/openvino.py
+++ b/aphrodite/modeling/model_loader/openvino.py
@@ -13,10 +13,9 @@ from torch import nn
 
				 import aphrodite.common.envs as envs
			
 
				 from aphrodite.attention.backends.openvino import OpenVINOAttentionMetadata
			
 
				 from aphrodite.common.config import DeviceConfig, ModelConfig
			
 
				-from aphrodite.common.sequence import SamplerOutput
			
 
				 from aphrodite.modeling.layers.logits_processor import (LogitsProcessor,
			
 
				                                                         _prune_hidden_states)
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
 
				 
			
 
				 APHRODITE_OPENVINO_ENABLE_QUANTIZED_WEIGHTS = (
			
--- a/aphrodite/modeling/models/arctic.py
+++ b/aphrodite/modeling/models/arctic.py
@@ -7,7 +7,7 @@ from torch import nn
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_rank,
			
 
				                                    get_tensor_model_parallel_world_size,
			
 
				                                    tensor_model_parallel_all_reduce)
			
@@ -20,7 +20,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/baichuan.py
+++ b/aphrodite/modeling/models/baichuan.py
@@ -27,7 +27,7 @@ from transformers import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_rank,
			
 
				                                    get_tensor_model_parallel_world_size)
			
 
				 from aphrodite.modeling.layers.activation import SiluAndMul
			
@@ -37,7 +37,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/bart.py
+++ b/aphrodite/modeling/models/bart.py
@@ -25,14 +25,14 @@ from transformers import BartConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata, AttentionType
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
 
				 from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
			
 
				                                               QKVParallelLinear,
			
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/blip2.py
+++ b/aphrodite/modeling/models/blip2.py
@@ -9,13 +9,12 @@ from transformers import (Blip2Config, Blip2QFormerConfig, Blip2VisionConfig,
 
				 
			
 
				 from aphrodite.attention import AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, MultiModalConfig
			
 
				-from aphrodite.common.sequence import (IntermediateTensors, SamplerOutput,
			
 
				-                                       SequenceData)
			
 
				+from aphrodite.common.sequence import IntermediateTensors, SequenceData
			
 
				 from aphrodite.constants import APHRODITE_TOKEN_ID_ARRAY_TYPE
			
 
				 from aphrodite.inputs import INPUT_REGISTRY, InputContext, LLMInputs
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
 
				 from aphrodite.modeling.models.opt import OPTModel
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
--- a/aphrodite/modeling/models/bloom.py
+++ b/aphrodite/modeling/models/bloom.py
@@ -25,7 +25,7 @@ from transformers import BloomConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_rank,
			
 
				                                    get_tensor_model_parallel_world_size)
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
@@ -33,7 +33,7 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
				                                               QKVParallelLinear,
			
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/chameleon.py
+++ b/aphrodite/modeling/models/chameleon.py
@@ -11,8 +11,7 @@ from transformers import ChameleonConfig, ChameleonVQVAEConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, MultiModalConfig
			
 
				-from aphrodite.common.sequence import (IntermediateTensors, SamplerOutput,
			
 
				-                                       SequenceData)
			
 
				+from aphrodite.common.sequence import IntermediateTensors, SequenceData
			
 
				 from aphrodite.common.utils import print_warning_once
			
 
				 from aphrodite.constants import APHRODITE_TOKEN_ID_ARRAY_TYPE
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
@@ -24,7 +23,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import (
			
--- a/aphrodite/modeling/models/chatglm.py
+++ b/aphrodite/modeling/models/chatglm.py
@@ -10,7 +10,7 @@ from torch.nn import LayerNorm
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import SiluAndMul
			
 
				 from aphrodite.modeling.layers.layernorm import RMSNorm
			
@@ -19,7 +19,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/commandr.py
+++ b/aphrodite/modeling/models/commandr.py
@@ -29,7 +29,7 @@ from transformers import CohereConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import SiluAndMul
			
 
				 from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
			
@@ -37,7 +37,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import (
			
--- a/aphrodite/modeling/models/dbrx.py
+++ b/aphrodite/modeling/models/dbrx.py
@@ -6,7 +6,7 @@ import torch.nn as nn
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_rank,
			
 
				                                    get_tensor_model_parallel_world_size,
			
 
				                                    tensor_model_parallel_all_reduce)
			
@@ -16,7 +16,7 @@ from aphrodite.modeling.layers.linear import (QKVParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/deepseek.py
+++ b/aphrodite/modeling/models/deepseek.py
@@ -29,7 +29,7 @@ from transformers import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_rank,
			
 
				                                    get_tensor_model_parallel_world_size,
			
 
				                                    tensor_model_parallel_all_reduce)
			
@@ -42,7 +42,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/deepseek_v2.py
+++ b/aphrodite/modeling/models/deepseek_v2.py
@@ -30,7 +30,7 @@ from transformers import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_world_size,
			
 
				                                    tensor_model_parallel_all_reduce)
			
 
				 from aphrodite.modeling.layers.activation import SiluAndMul
			
@@ -42,7 +42,7 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/eagle.py
+++ b/aphrodite/modeling/models/eagle.py
@@ -4,8 +4,9 @@ import torch
 
				 import torch.nn as nn
			
 
				 
			
 
				 from aphrodite.attention.backends.abstract import AttentionMetadata
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/exaone.py
+++ b/aphrodite/modeling/models/exaone.py
@@ -30,7 +30,7 @@ from torch import nn
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.common.utils import is_hip
			
 
				 from aphrodite.distributed import (get_pp_group,
			
 
				                                    get_tensor_model_parallel_rank,
			
@@ -42,7 +42,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import (
			
--- a/aphrodite/modeling/models/falcon.py
+++ b/aphrodite/modeling/models/falcon.py
@@ -28,7 +28,7 @@ from transformers import FalconConfig as HF_FalconConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_rank,
			
 
				                                    get_tensor_model_parallel_world_size,
			
 
				                                    tensor_model_parallel_all_reduce)
			
@@ -38,7 +38,7 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/fuyu.py
+++ b/aphrodite/modeling/models/fuyu.py
@@ -27,11 +27,11 @@ from transformers import FuyuConfig, FuyuImageProcessor
 
				 
			
 
				 from aphrodite.attention import AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, MultiModalConfig
			
 
				-from aphrodite.common.sequence import (IntermediateTensors, SamplerOutput,
			
 
				-                                       SequenceData)
			
 
				+from aphrodite.common.sequence import IntermediateTensors, SequenceData
			
 
				 from aphrodite.constants import APHRODITE_TOKEN_ID_ARRAY_TYPE
			
 
				 from aphrodite.inputs import INPUT_REGISTRY, InputContext, LLMInputs
			
 
				 from aphrodite.modeling.layers.linear import ColumnParallelLinear
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
 
				 from aphrodite.modeling.models.persimmon import PersimmonForCausalLM
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
--- a/aphrodite/modeling/models/gemma.py
+++ b/aphrodite/modeling/models/gemma.py
@@ -24,7 +24,7 @@ from transformers import GemmaConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import GeluAndMul
			
 
				 from aphrodite.modeling.layers.layernorm import GemmaRMSNorm
			
@@ -33,7 +33,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import GemmaRotaryEmbedding
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/gemma2.py
+++ b/aphrodite/modeling/models/gemma2.py
@@ -24,7 +24,7 @@ from transformers import Gemma2Config
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import GeluAndMul
			
 
				 from aphrodite.modeling.layers.layernorm import GemmaRMSNorm
			
@@ -33,7 +33,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import GemmaRotaryEmbedding
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/gpt2.py
+++ b/aphrodite/modeling/models/gpt2.py
@@ -25,14 +25,14 @@ from transformers import GPT2Config
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
 
				 from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
			
 
				                                               QKVParallelLinear,
			
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/gpt_bigcode.py
+++ b/aphrodite/modeling/models/gpt_bigcode.py
@@ -26,14 +26,14 @@ from transformers import GPTBigCodeConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
 
				 from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
			
 
				                                               QKVParallelLinear,
			
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/gpt_j.py
+++ b/aphrodite/modeling/models/gpt_j.py
@@ -24,7 +24,7 @@ from transformers import GPTJConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
 
				 from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
			
@@ -32,7 +32,7 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/gpt_neox.py
+++ b/aphrodite/modeling/models/gpt_neox.py
@@ -24,7 +24,7 @@ from transformers import GPTNeoXConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
 
				 from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
			
@@ -32,7 +32,7 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/internlm2.py
+++ b/aphrodite/modeling/models/internlm2.py
@@ -7,7 +7,7 @@ from transformers import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import SiluAndMul
			
 
				 from aphrodite.modeling.layers.layernorm import RMSNorm
			
@@ -16,7 +16,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/internvl.py
+++ b/aphrodite/modeling/models/internvl.py
@@ -16,8 +16,9 @@ from transformers import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, MultiModalConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.inputs import INPUT_REGISTRY, InputContext, LLMInputs
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
 
				 from aphrodite.modeling.models.intern_vit import InternVisionModel
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
--- a/aphrodite/modeling/models/jais.py
+++ b/aphrodite/modeling/models/jais.py
@@ -27,14 +27,14 @@ from torch import nn
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_rank,
			
 
				                                    get_tensor_model_parallel_world_size)
			
 
				 from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
			
 
				                                               QKVParallelLinear,
			
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/jamba.py
+++ b/aphrodite/modeling/models/jamba.py
@@ -11,7 +11,7 @@ from transformers import JambaConfig
 
				 from aphrodite.attention.backends.abstract import AttentionMetadata
			
 
				 from aphrodite.attention.layer import Attention
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig, SchedulerConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 # yapf: disable
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_rank,
			
 
				                                    get_tensor_model_parallel_world_size)
			
@@ -28,7 +28,7 @@ from aphrodite.modeling.layers.mamba import (causal_conv1d_fn,
 
				                                              causal_conv1d_update,
			
 
				                                              selective_scan_fn,
			
 
				                                              selective_state_update)
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/llama.py
+++ b/aphrodite/modeling/models/llama.py
@@ -29,7 +29,7 @@ from transformers import LlamaConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.common.utils import is_hip
			
 
				 from aphrodite.distributed import (get_current_tp_rank_partition_size,
			
 
				                                    get_pp_group,
			
@@ -42,7 +42,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import (
			
--- a/aphrodite/modeling/models/llava.py
+++ b/aphrodite/modeling/models/llava.py
@@ -8,9 +8,10 @@ from transformers import CLIPVisionConfig, LlavaConfig, SiglipVisionConfig
 
				 
			
 
				 from aphrodite.attention import AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, MultiModalConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.inputs import INPUT_REGISTRY, InputContext, LLMInputs
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
 
				 from aphrodite.multimodal import MULTIMODAL_REGISTRY
			
--- a/aphrodite/modeling/models/llava_next.py
+++ b/aphrodite/modeling/models/llava_next.py
@@ -12,9 +12,10 @@ from typing_extensions import NotRequired
 
				 
			
 
				 from aphrodite.attention import AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, MultiModalConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.common.utils import is_list_of
			
 
				 from aphrodite.inputs import INPUT_REGISTRY, InputContext, LLMInputs
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
 
				 from aphrodite.multimodal import MULTIMODAL_REGISTRY
			
--- a/aphrodite/modeling/models/mamba.py
+++ b/aphrodite/modeling/models/mamba.py
@@ -10,7 +10,7 @@ from transformers import MambaConfig
 
				 
			
 
				 from aphrodite.attention.backends.abstract import AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig, SchedulerConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_rank,
			
 
				                                    get_tensor_model_parallel_world_size)
			
 
				 from aphrodite.modeling.layers.activation import SiluAndMul
			
@@ -23,7 +23,7 @@ from aphrodite.modeling.layers.mamba.ops.causal_conv1d import (
 
				     causal_conv1d_fn, causal_conv1d_update)
			
 
				 from aphrodite.modeling.layers.mamba.ops.mamba_ssm import (
			
 
				     selective_scan_fn, selective_state_update)
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/medusa.py
+++ b/aphrodite/modeling/models/medusa.py
@@ -3,8 +3,8 @@ from typing import Iterable, List, Optional, Tuple
 
				 import torch
			
 
				 import torch.nn as nn
			
 
				 
			
 
				-from aphrodite.common.sequence import SamplerOutput
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/minicpm.py
+++ b/aphrodite/modeling/models/minicpm.py
@@ -31,7 +31,7 @@ from transformers import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_rank,
			
 
				                                    get_tensor_model_parallel_world_size,
			
 
				                                    tensor_model_parallel_all_reduce)
			
@@ -44,7 +44,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/minicpmv.py
+++ b/aphrodite/modeling/models/minicpmv.py
@@ -39,13 +39,12 @@ from transformers.configuration_utils import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, MultiModalConfig
			
 
				-from aphrodite.common.sequence import (IntermediateTensors, SamplerOutput,
			
 
				-                                       SequenceData)
			
 
				+from aphrodite.common.sequence import IntermediateTensors, SequenceData
			
 
				 from aphrodite.constants import APHRODITE_TOKEN_ID_ARRAY_TYPE
			
 
				 from aphrodite.inputs import INPUT_REGISTRY, InputContext, LLMInputs
			
 
				 from aphrodite.modeling.layers.linear import ReplicatedLinear
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import ParallelLMHead
			
 
				 from aphrodite.modeling.model_loader.utils import set_default_torch_dtype
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/mixtral.py
+++ b/aphrodite/modeling/models/mixtral.py
@@ -29,7 +29,7 @@ from transformers import MixtralConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_pp_group,
			
 
				                                    get_tensor_model_parallel_world_size)
			
 
				 from aphrodite.modeling.layers.fused_moe import FusedMoE
			
@@ -39,7 +39,7 @@ from aphrodite.modeling.layers.linear import (QKVParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import (
			
--- a/aphrodite/modeling/models/mixtral_quant.py
+++ b/aphrodite/modeling/models/mixtral_quant.py
@@ -31,7 +31,7 @@ from transformers import MixtralConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_rank,
			
 
				                                    get_tensor_model_parallel_world_size,
			
 
				                                    tensor_model_parallel_all_reduce)
			
@@ -41,7 +41,7 @@ from aphrodite.modeling.layers.linear import (QKVParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/mlp_speculator.py
+++ b/aphrodite/modeling/models/mlp_speculator.py
@@ -4,9 +4,8 @@ from typing import Iterable, List, Tuple
 
				 import torch
			
 
				 import torch.nn as nn
			
 
				 
			
 
				-from aphrodite.common.sequence import SamplerOutput
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/mpt.py
+++ b/aphrodite/modeling/models/mpt.py
@@ -8,7 +8,7 @@ import torch.nn as nn
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_rank,
			
 
				                                    get_tensor_model_parallel_world_size)
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
@@ -16,7 +16,7 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
				                                               QKVParallelLinear,
			
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/nemotron.py
+++ b/aphrodite/modeling/models/nemotron.py
@@ -30,7 +30,7 @@ from transformers import NemotronConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_pp_group,
			
 
				                                    get_tensor_model_parallel_world_size)
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
@@ -39,7 +39,7 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import (
			
--- a/aphrodite/modeling/models/olmo.py
+++ b/aphrodite/modeling/models/olmo.py
@@ -29,7 +29,7 @@ from transformers import OlmoConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import SiluAndMul
			
 
				 from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
			
@@ -37,7 +37,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/olmoe.py
+++ b/aphrodite/modeling/models/olmoe.py
@@ -18,7 +18,7 @@ from transformers import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.fused_moe import FusedMoE
			
 
				 from aphrodite.modeling.layers.layernorm import RMSNorm
			
@@ -27,7 +27,7 @@ from aphrodite.modeling.layers.linear import (QKVParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/opt.py
+++ b/aphrodite/modeling/models/opt.py
@@ -25,7 +25,7 @@ from transformers import OPTConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
 
				 from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
			
@@ -33,7 +33,7 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
				                                               ReplicatedLinear,
			
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/orion.py
+++ b/aphrodite/modeling/models/orion.py
@@ -12,7 +12,7 @@ from transformers import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import SiluAndMul
			
 
				 from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
			
@@ -20,7 +20,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/paligemma.py
+++ b/aphrodite/modeling/models/paligemma.py
@@ -8,10 +8,10 @@ from transformers import PaliGemmaConfig
 
				 
			
 
				 from aphrodite.attention import AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, MultiModalConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.inputs import INPUT_REGISTRY, InputContext, LLMInputs
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
 
				 from aphrodite.modeling.models.gemma import GemmaModel
			
 
				 from aphrodite.modeling.models.gemma2 import Gemma2Model
			
--- a/aphrodite/modeling/models/persimmon.py
+++ b/aphrodite/modeling/models/persimmon.py
@@ -30,14 +30,14 @@ from transformers.activations import ReLUSquaredActivation
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
			
 
				                                               QKVParallelLinear,
			
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/phi.py
+++ b/aphrodite/modeling/models/phi.py
@@ -43,7 +43,7 @@ from transformers import PhiConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
 
				 from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
			
@@ -51,7 +51,7 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/phi3_small.py
+++ b/aphrodite/modeling/models/phi3_small.py
@@ -7,7 +7,7 @@ from transformers.configuration_utils import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_tensor_model_parallel_rank,
			
 
				                                    get_tensor_model_parallel_world_size)
			
 
				 from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
			
@@ -15,7 +15,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/phi3v.py
+++ b/aphrodite/modeling/models/phi3v.py
@@ -29,11 +29,11 @@ from transformers import CLIPVisionConfig, PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, ModelConfig, MultiModalConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.common.utils import is_list_of
			
 
				 from aphrodite.inputs import INPUT_REGISTRY, InputContext, LLMInputs
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import ParallelLMHead
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
 
				 from aphrodite.modeling.models.clip import CLIPVisionModel
			
--- a/aphrodite/modeling/models/qwen.py
+++ b/aphrodite/modeling/models/qwen.py
@@ -12,7 +12,7 @@ from transformers import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import SiluAndMul
			
 
				 from aphrodite.modeling.layers.layernorm import RMSNorm
			
@@ -21,7 +21,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/qwen2.py
+++ b/aphrodite/modeling/models/qwen2.py
@@ -30,7 +30,7 @@ from transformers import Qwen2Config
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import (get_current_tp_rank_partition_size,
			
 
				                                    get_pp_group,
			
 
				                                    get_tensor_model_parallel_rank,
			
@@ -42,7 +42,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import (
			
--- a/aphrodite/modeling/models/qwen2_moe.py
+++ b/aphrodite/modeling/models/qwen2_moe.py
@@ -31,7 +31,7 @@ from transformers import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.common.utils import print_warning_once
			
 
				 from aphrodite.distributed import (get_pp_group,
			
 
				                                    get_tensor_model_parallel_world_size,
			
@@ -45,7 +45,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/solar.py
+++ b/aphrodite/modeling/models/solar.py
@@ -29,7 +29,7 @@ from torch import nn
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.common.utils import is_hip
			
 
				 from aphrodite.distributed import (get_pp_group,
			
 
				                                    get_tensor_model_parallel_rank,
			
@@ -41,7 +41,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import (
			
--- a/aphrodite/modeling/models/stablelm.py
+++ b/aphrodite/modeling/models/stablelm.py
@@ -27,7 +27,7 @@ from transformers import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import SiluAndMul
			
 
				 from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
			
@@ -35,7 +35,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/starcoder2.py
+++ b/aphrodite/modeling/models/starcoder2.py
@@ -26,7 +26,7 @@ from transformers import Starcoder2Config
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import get_act_fn
			
 
				 from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
			
@@ -34,7 +34,7 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     DEFAULT_VOCAB_PADDING_SIZE, ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/modeling/models/ultravox.py
+++ b/aphrodite/modeling/models/ultravox.py
@@ -20,12 +20,13 @@ from transformers.models.whisper.modeling_whisper import WhisperEncoder
 
				 from aphrodite.attention import AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, MultiModalConfig
			
 
				 from aphrodite.common.sequence import (APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				-                                       SamplerOutput, SequenceData)
			
 
				+                                       SequenceData)
			
 
				 from aphrodite.inputs import INPUT_REGISTRY
			
 
				 from aphrodite.inputs.data import LLMInputs
			
 
				 from aphrodite.inputs.registry import InputContext
			
 
				 from aphrodite.modeling.layers.activation import SiluAndMul, get_act_fn
			
 
				 from aphrodite.modeling.layers.layernorm import RMSNorm
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
 
				 from aphrodite.modeling.models.interfaces import SupportsMultiModal
			
 
				 from aphrodite.modeling.models.utils import (filter_weights,
			
--- a/aphrodite/modeling/models/xverse.py
+++ b/aphrodite/modeling/models/xverse.py
@@ -28,7 +28,7 @@ from transformers import PretrainedConfig
 
				 
			
 
				 from aphrodite.attention import Attention, AttentionMetadata
			
 
				 from aphrodite.common.config import CacheConfig, LoRAConfig
			
 
				-from aphrodite.common.sequence import IntermediateTensors, SamplerOutput
			
 
				+from aphrodite.common.sequence import IntermediateTensors
			
 
				 from aphrodite.distributed import get_tensor_model_parallel_world_size
			
 
				 from aphrodite.modeling.layers.activation import SiluAndMul
			
 
				 from aphrodite.modeling.layers.layernorm import RMSNorm
			
@@ -37,7 +37,7 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
				                                               RowParallelLinear)
			
 
				 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
			
 
				 from aphrodite.modeling.layers.rotary_embedding import get_rope
			
 
				-from aphrodite.modeling.layers.sampler import Sampler
			
 
				+from aphrodite.modeling.layers.sampler import Sampler, SamplerOutput
			
 
				 from aphrodite.modeling.layers.vocab_parallel_embedding import (
			
 
				     ParallelLMHead, VocabParallelEmbedding)
			
 
				 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
			
--- a/aphrodite/quantization/gguf.py
+++ b/aphrodite/quantization/gguf.py
@@ -125,7 +125,8 @@ class GGUFLinearMethod(LinearMethodBase):
 
				                     offset:offset +
			
 
				                     shard_size[id][0], :shard_size[id][1]].contiguous()
			
 
				                 qweight_type = layer.qweight_type.shard_weight_type[id]
			
 
				-                result.append(_fuse_mul_mat(x, shard_weight, qweight_type).contiguous())
			
 
				+                result.append(_fuse_mul_mat(x, shard_weight,
			
 
				+                                            qweight_type).contiguous())
			
 
				                 offset += shard_size[id][0]
			
 
				             out = torch.cat(result, dim=-1)
			
 
				         else:
			
--- a/aphrodite/spec_decode/batch_expansion.py
+++ b/aphrodite/spec_decode/batch_expansion.py
@@ -6,9 +6,9 @@ import torch
 
				 
			
 
				 from aphrodite import SamplingParams
			
 
				 from aphrodite.common.sequence import (APHRODITE_TOKEN_ID_ARRAY_TYPE,
			
 
				-                                       ExecuteModelRequest, SamplerOutput,
			
 
				-                                       SequenceData, SequenceGroupMetadata,
			
 
				-                                       get_all_seq_ids)
			
 
				+                                       ExecuteModelRequest, SequenceData,
			
 
				+                                       SequenceGroupMetadata, get_all_seq_ids)
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.spec_decode.interfaces import (SpeculativeProposals,
			
 
				                                               SpeculativeScorer,
			
 
				                                               SpeculativeScores)
			
--- a/aphrodite/spec_decode/draft_model_runner.py
+++ b/aphrodite/spec_decode/draft_model_runner.py
@@ -15,8 +15,8 @@ except ModuleNotFoundError:
 
				 from aphrodite.common.config import (CacheConfig, DeviceConfig, LoadConfig,
			
 
				                                      LoRAConfig, ModelConfig, ParallelConfig,
			
 
				                                      PromptAdapterConfig, SchedulerConfig)
			
 
				-from aphrodite.common.sequence import (ExecuteModelRequest,
			
 
				-                                       IntermediateTensors, SamplerOutput)
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest, IntermediateTensors
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.multimodal import MultiModalInputs
			
 
				 from aphrodite.task_handler.model_runner import (
			
 
				     ModelInputForGPUWithSamplingMetadata, ModelRunner)
			
--- a/aphrodite/spec_decode/medusa_worker.py
+++ b/aphrodite/spec_decode/medusa_worker.py
@@ -3,8 +3,9 @@ from typing import List, Optional, Set, Tuple
 
				 
			
 
				 import torch
			
 
				 
			
 
				-from aphrodite.common.sequence import (ExecuteModelRequest, SamplerOutput,
			
 
				+from aphrodite.common.sequence import (ExecuteModelRequest,
			
 
				                                        SequenceGroupMetadata)
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
 
				 from aphrodite.spec_decode.interfaces import SpeculativeProposals
			
 
				 from aphrodite.spec_decode.proposer_worker_base import NonLLMProposerWorkerBase
			
--- a/aphrodite/spec_decode/mlp_speculator_worker.py
+++ b/aphrodite/spec_decode/mlp_speculator_worker.py
@@ -2,8 +2,9 @@ from typing import List, Optional, Set, Tuple
 
				 
			
 
				 import torch
			
 
				 
			
 
				-from aphrodite.common.sequence import (ExecuteModelRequest, SamplerOutput,
			
 
				+from aphrodite.common.sequence import (ExecuteModelRequest,
			
 
				                                        SequenceGroupMetadata)
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
 
				 from aphrodite.spec_decode.multi_step_worker import MultiStepWorker
			
 
				 from aphrodite.spec_decode.proposer_worker_base import NonLLMProposerWorkerBase
			
--- a/aphrodite/spec_decode/multi_step_worker.py
+++ b/aphrodite/spec_decode/multi_step_worker.py
@@ -5,8 +5,8 @@ from typing import Dict, List, Set, Tuple
 
				 import torch
			
 
				 
			
 
				 from aphrodite.common.sequence import (ExecuteModelRequest, HiddenStates,
			
 
				-                                       SamplerOutput, SequenceData,
			
 
				-                                       SequenceGroupMetadata)
			
 
				+                                       SequenceData, SequenceGroupMetadata)
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.spec_decode.draft_model_runner import TP1DraftModelRunner
			
 
				 from aphrodite.spec_decode.interfaces import (SpeculativeProposals,
			
 
				                                               SpeculativeProposer)
			
--- a/aphrodite/spec_decode/ngram_worker.py
+++ b/aphrodite/spec_decode/ngram_worker.py
@@ -3,7 +3,8 @@ from typing import List, Optional, Set, Tuple
 
				 
			
 
				 import torch
			
 
				 
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.spec_decode.interfaces import SpeculativeProposals
			
 
				 from aphrodite.spec_decode.proposer_worker_base import NonLLMProposerWorkerBase
			
 
				 from aphrodite.spec_decode.top1_proposer import Top1Proposer
			
--- a/aphrodite/spec_decode/proposer_worker_base.py
+++ b/aphrodite/spec_decode/proposer_worker_base.py
@@ -1,7 +1,8 @@
 
				 from abc import ABC, abstractmethod
			
 
				 from typing import List, Optional, Set, Tuple
			
 
				 
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.spec_decode.interfaces import SpeculativeProposer
			
 
				 from aphrodite.task_handler.worker_base import LoraNotSupportedWorkerBase
			
 
				 
			
--- a/aphrodite/spec_decode/smaller_tp_proposer_worker.py
+++ b/aphrodite/spec_decode/smaller_tp_proposer_worker.py
@@ -3,10 +3,11 @@ from typing import List, Optional, Set, Tuple
 
				 import torch
			
 
				 from loguru import logger
			
 
				 
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				 from aphrodite.distributed.parallel_state import (get_tp_group,
			
 
				                                                   init_model_parallel_group,
			
 
				                                                   patch_tensor_parallel_group)
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.spec_decode.interfaces import SpeculativeProposals
			
 
				 from aphrodite.spec_decode.multi_step_worker import MultiStepWorker
			
 
				 from aphrodite.spec_decode.proposer_worker_base import ProposerWorkerBase
			
--- a/aphrodite/spec_decode/spec_decode_worker.py
+++ b/aphrodite/spec_decode/spec_decode_worker.py
@@ -8,11 +8,11 @@ from loguru import logger
 
				 from aphrodite.common.config import ParallelConfig, SpeculativeConfig
			
 
				 from aphrodite.common.sequence import (CompletionSequenceGroupOutput,
			
 
				                                        ExecuteModelRequest, HiddenStates,
			
 
				-                                       SamplerOutput, SequenceGroupMetadata,
			
 
				-                                       get_all_seq_ids,
			
 
				+                                       SequenceGroupMetadata, get_all_seq_ids,
			
 
				                                        get_all_seq_ids_and_request_ids)
			
 
				 from aphrodite.distributed.communication_op import broadcast_tensor_dict
			
 
				 from aphrodite.modeling.layers.rejection_sampler import RejectionSampler
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.layers.spec_decode_base_sampler import (
			
 
				     SpecDecodeBaseSampler, SpecDecodeStochasticBaseSampler)
			
 
				 from aphrodite.modeling.layers.typical_acceptance_sampler import (
			
--- a/aphrodite/spec_decode/top1_proposer.py
+++ b/aphrodite/spec_decode/top1_proposer.py
@@ -2,8 +2,9 @@ from typing import List, Optional, Set, Tuple
 
				 
			
 
				 import torch
			
 
				 
			
 
				-from aphrodite.common.sequence import (ExecuteModelRequest, SamplerOutput,
			
 
				+from aphrodite.common.sequence import (ExecuteModelRequest,
			
 
				                                        SequenceGroupMetadata)
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.spec_decode.interfaces import (SpeculativeProposals,
			
 
				                                               SpeculativeProposer)
			
 
				 from aphrodite.spec_decode.proposer_worker_base import ProposerWorkerBase
			
--- a/aphrodite/spec_decode/util.py
+++ b/aphrodite/spec_decode/util.py
@@ -5,8 +5,8 @@ from typing import Dict, List, Optional, Sequence, Tuple
 
				 import torch
			
 
				 
			
 
				 from aphrodite.common.sequence import (CompletionSequenceGroupOutput, Logprob,
			
 
				-                                       SamplerOutput, SequenceGroupMetadata,
			
 
				-                                       SequenceOutput)
			
 
				+                                       SequenceGroupMetadata, SequenceOutput)
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 
			
 
				 SeqId = int
			
 
				 
			
--- a/aphrodite/task_handler/cpu_model_runner.py
+++ b/aphrodite/task_handler/cpu_model_runner.py
@@ -8,9 +8,10 @@ from aphrodite.attention import AttentionMetadata, get_attn_backend
 
				 from aphrodite.common.config import (CacheConfig, DeviceConfig, LoadConfig,
			
 
				                                      LoRAConfig, ModelConfig, ParallelConfig,
			
 
				                                      PromptAdapterConfig, SchedulerConfig)
			
 
				-from aphrodite.common.sequence import (IntermediateTensors, SamplerOutput,
			
 
				+from aphrodite.common.sequence import (IntermediateTensors,
			
 
				                                        SequenceGroupMetadata)
			
 
				 from aphrodite.common.utils import make_tensor_with_pad
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.model_loader import get_model
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
 
				 from aphrodite.multimodal import (MULTIMODAL_REGISTRY, BatchedTensorInputs,
			
--- a/aphrodite/task_handler/enc_dec_model_runner.py
+++ b/aphrodite/task_handler/enc_dec_model_runner.py
@@ -17,10 +17,11 @@ from aphrodite.common.config import (CacheConfig, DeviceConfig, LoadConfig,
 
				                                      PromptAdapterConfig, SchedulerConfig)
			
 
				 from aphrodite.common.sampling_params import SamplingParams
			
 
				 from aphrodite.common.sequence import (IntermediateTensors, PoolerOutput,
			
 
				-                                       SamplerOutput, SequenceGroupMetadata)
			
 
				+                                       SequenceGroupMetadata)
			
 
				 from aphrodite.common.utils import (STR_NOT_IMPL_ENC_DEC_BACKEND,
			
 
				                                     make_tensor_with_pad)
			
 
				 from aphrodite.inputs import INPUT_REGISTRY, InputRegistry
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
 
				 from aphrodite.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
			
 
				 from aphrodite.task_handler.model_runner import (
			
--- a/aphrodite/task_handler/model_runner.py
+++ b/aphrodite/task_handler/model_runner.py
@@ -23,7 +23,7 @@ from aphrodite.common.config import (CacheConfig, DeviceConfig, LoadConfig,
 
				                                      LoRAConfig, ModelConfig, ParallelConfig,
			
 
				                                      PromptAdapterConfig, SchedulerConfig)
			
 
				 from aphrodite.common.sampling_params import SamplingParams
			
 
				-from aphrodite.common.sequence import (IntermediateTensors, SamplerOutput,
			
 
				+from aphrodite.common.sequence import (IntermediateTensors,
			
 
				                                        SequenceGroupMetadata)
			
 
				 from aphrodite.common.utils import (CudaMemoryProfiler, PyObjectCache,
			
 
				                                     async_tensor_h2d, flatten_2d_lists, is_hip,
			
@@ -36,6 +36,7 @@ from aphrodite.inputs import INPUT_REGISTRY, InputRegistry
 
				 from aphrodite.lora.layers import LoRAMapping
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				 from aphrodite.lora.worker_manager import LRUCacheWorkerLoRAManager
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.model_loader import get_model
			
 
				 from aphrodite.modeling.model_loader.tensorizer import TensorizerConfig
			
 
				 from aphrodite.modeling.models.interfaces import (supports_lora,
			
--- a/aphrodite/task_handler/model_runner_base.py
+++ b/aphrodite/task_handler/model_runner_base.py
@@ -5,8 +5,9 @@ from typing import (TYPE_CHECKING, Any, Dict, Generic, List, Optional, Type,
 
				 
			
 
				 import torch
			
 
				 
			
 
				-from aphrodite.common.sequence import (IntermediateTensors, SamplerOutput,
			
 
				+from aphrodite.common.sequence import (IntermediateTensors,
			
 
				                                        SequenceGroupMetadata)
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.platforms import current_platform
			
 
				 
			
 
				 if TYPE_CHECKING:
			
--- a/aphrodite/task_handler/multi_step_model_runner.py
+++ b/aphrodite/task_handler/multi_step_model_runner.py
@@ -1,7 +1,8 @@
 
				 import dataclasses
			
 
				 import functools
			
 
				 from dataclasses import dataclass, field
			
 
				-from typing import TYPE_CHECKING, Any, Callable, Dict, List, Optional, Union
			
 
				+from typing import (TYPE_CHECKING, Any, Callable, Dict, List, Optional, Tuple,
			
 
				+                    Union)
			
 
				 
			
 
				 try:
			
 
				     from aphrodite.attention.backends.flash_attn import FlashAttentionMetadata
			
@@ -16,9 +17,12 @@ import torch
 
				 from aphrodite import _custom_ops as ops
			
 
				 from aphrodite.common.sequence import (CompletionSequenceGroupOutput,
			
 
				                                        IntermediateTensors, Logprob,
			
 
				-                                       SamplerOutput, SequenceGroupMetadata,
			
 
				-                                       SequenceOutput)
			
 
				+                                       SequenceGroupMetadata, SequenceOutput)
			
 
				 from aphrodite.distributed import get_pp_group
			
 
				+from aphrodite.modeling.layers.sampler import (PromptLogprobs, SampleLogprobs,
			
 
				+                                               SamplerOutput, SamplingMetadata,
			
 
				+                                               get_logprobs,
			
 
				+                                               get_pythonized_sample_results)
			
 
				 from aphrodite.modeling.model_loader.tensorizer import TensorizerConfig
			
 
				 from aphrodite.task_handler.model_runner import (
			
 
				     GPUModelRunnerBase, ModelInputForGPUWithSamplingMetadata)
			
@@ -50,6 +54,8 @@ class ModelOutput:
 
				     sampler_output_ready_event: torch.cuda.Event
			
 
				     sampled_token_ids: Optional[torch.Tensor] = None
			
 
				     pythonized: bool = False
			
 
				+    # On-device tensor containing the logprobs of each token.
			
 
				+    logprobs: Optional["torch.Tensor"] = None
			
 
				 
			
 
				     def pythonize(
			
 
				         self,
			
@@ -85,7 +91,9 @@ class ModelOutput:
 
				     ) -> bool:
			
 
				         """
			
 
				         If blocking is set, will block until the forward pass for the output is
			
 
				-        ready and pythonize the output.
			
 
				+        ready and pythonize the output. Upon completing Pythonization, erases
			
 
				+        self.logprobs (note that a non-blocking call that is performed when
			
 
				+        the sampler output is not yet ready, will not erase self.logprobs.)
			
 
				         """
			
 
				         assert self.sampled_token_ids is not None
			
 
				         if not blocking and not self.sampler_output_ready_event.query():
			
@@ -97,8 +105,15 @@ class ModelOutput:
 
				                 input_metadata,
			
 
				                 self.sampler_output,
			
 
				                 pinned_sampled_token_buffer,
			
 
				-                self.sampled_token_ids,
			
 
				-            )
			
 
				+                self.sampled_token_ids, self.logprobs)
			
 
				+
			
 
				+        # Erase the logprobs GPU-side tensor.
			
 
				+        # Note that although _pythonize_sampler_output() runs in its
			
 
				+        # own CUDA stream, nonetheless _pythonize_sampler_output()
			
 
				+        # cannot return until Pythonization is complete; therefore
			
 
				+        # we know that by the time the CPU reaches this point,
			
 
				+        # `self.logprobs` is no longer needed.
			
 
				+        self.logprobs = None
			
 
				         return True
			
 
				 
			
 
				 
			
@@ -355,11 +370,12 @@ class MultiStepModelRunner(GPUModelRunnerBase[StatefulModelInput]):
 
				                 ModelOutput(
			
 
				                     output[0],
			
 
				                     output_ready_event,
			
 
				-                    output[0].sampled_token_ids,
			
 
				-                    False,
			
 
				-                )
			
 
				-            )
			
 
				-            # make sure we dont try to serialize any GPU tensors
			
 
				+                    output[0].sampled_token_ids, False,
			
 
				+                            output[0].logprobs))
			
 
				+
			
 
				+            # These GPU tensors are not required by multi-step;
			
 
				+            # erase them to ensure they are not pythonized or
			
 
				+            # transferred to CPU
			
 
				             output[0].sampled_token_ids = None
			
 
				             output[0].sampled_token_probs = None
			
 
				             output[0].logprobs = None
			
@@ -464,14 +480,72 @@ class MultiStepModelRunner(GPUModelRunnerBase[StatefulModelInput]):
 
				         return self._base_model_runner.vocab_size
			
 
				 
			
 
				 
			
 
				+DeferredLogprobsReturnType = Tuple[Optional[List[Optional[PromptLogprobs]]],
			
 
				+                                   Optional[List[SampleLogprobs]]]
			
 
				+
			
 
				+
			
 
				+def deferred_pythonize_logprobs(
			
 
				+    output: SamplerOutput,
			
 
				+    sampling_metadata: SamplingMetadata,
			
 
				+    logprobs_tensor: Optional[torch.Tensor],
			
 
				+) -> DeferredLogprobsReturnType:
			
 
				+    """Perform deferred logprob Pythonization.
			
 
				+    1. Pythonize GPU-side sampler result tensors into CPU-side sampler result.
			
 
				+    2. Pythonize GPU-side logprobs tensor into CPU-side logprobs lists,
			
 
				+       utilizing  the Pythonized sampler result computed in step 1.
			
 
				+    
			
 
				+    These deferred computations are not required for single-step scheduling
			
 
				+    or the `profile_run()` phase of multi-step scheduling.
			
 
				+    Args:
			
 
				+        output: sampler output (under deferred Pythonization)
			
 
				+        sampling_metadata
			
 
				+        
			
 
				+    Returns:
			
 
				+        prompt_logprobs (CPU), sample_logprobs (CPU)
			
 
				+    """
			
 
				+
			
 
				+    # - Deferred pythonization of sample result
			
 
				+    sampler_result = get_pythonized_sample_results(
			
 
				+        output.deferred_sample_results_args)
			
 
				+
			
 
				+    # - Erase the GPU-side deferred sample_result
			
 
				+    #   computation args to ensure it is never
			
 
				+    #   pythonized or transferred to CPU
			
 
				+    output.deferred_sample_results_args = None
			
 
				+
			
 
				+    # - Deferred pythonization of logprobs
			
 
				+    (
			
 
				+        prompt_logprobs,
			
 
				+        sample_logprobs,
			
 
				+    ) = get_logprobs(logprobs_tensor, sampling_metadata, sampler_result)
			
 
				+    assert len(prompt_logprobs) == len(sampling_metadata.seq_groups)
			
 
				+    assert len(sample_logprobs) == len(sampling_metadata.seq_groups)
			
 
				+
			
 
				+    return prompt_logprobs, sample_logprobs
			
 
				+
			
 
				+
			
 
				 def _pythonize_sampler_output(
			
 
				     model_input: StatefulModelInput,
			
 
				     output: SamplerOutput,
			
 
				     pinned_sampled_token_buffer: torch.Tensor,
			
 
				     sampled_token_ids: torch.Tensor,
			
 
				+    logprobs_tensor: Optional[torch.Tensor],
			
 
				 ) -> None:
			
 
				-    """This function is only called when the output tensors are ready.
			
 
				-    See ModelOutput
			
 
				+    """ This function is only called when the output tensors are ready. 
			
 
				+    See :class:`ModelOutput`. 
			
 
				+    
			
 
				+    Modifies `output.outputs` and `pinned_sampled_token_buffer` in-place, 
			
 
				+    adding a Pythonized output data structure
			
 
				+    (:class:`CompletionSequenceGroupOutput`) for each :class:`SequenceGroup`.
			
 
				+    Args:
			
 
				+      model_input
			
 
				+      output: sampler output
			
 
				+      pinned_sampled_token_token_buffer: CPU-side pinned memory
			
 
				+                                         (receives copy of
			
 
				+                                         GPU-side token buffer.)
			
 
				+      sampled_token_ids: GPU-side token buffer
			
 
				+      logprobs_tensor: GPU-side tensor containing 
			
 
				+                       logprobs computed during sampling
			
 
				     """
			
 
				     assert model_input.frozen_model_input is not None
			
 
				     frozen_model_input = model_input.frozen_model_input
			
@@ -484,26 +558,70 @@ def _pythonize_sampler_output(
 
				     # this will not block as the tensors are already on CPU
			
 
				     samples_list = pinned_buffer.tolist()
			
 
				     sampling_metadata = frozen_model_input.sampling_metadata
			
 
				-    for seq_group, sample_result in zip(
			
 
				-        sampling_metadata.seq_groups, samples_list
			
 
				-    ):
			
 
				+    skip_sampler_cpu_output = (
			
 
				+        frozen_model_input.sampling_metadata.skip_sampler_cpu_output)
			
 
				+
			
 
				+    # We are guaranteed output tensors are ready, so it is safe to
			
 
				+    # pythonize the sampler output & obtain CPU-side logprobs.
			
 
				+    #
			
 
				+    # However this computation may be skipped entirely
			
 
				+    # if no pythonization was deferred.
			
 
				+    seq_groups = sampling_metadata.seq_groups
			
 
				+    logprobs_are_requested = any([
			
 
				+        sg.sampling_params.logprobs is not None
			
 
				+        or sg.sampling_params.prompt_logprobs is not None for sg in seq_groups
			
 
				+    ])
			
 
				+    do_pythonize_logprobs = (skip_sampler_cpu_output
			
 
				+                             and logprobs_are_requested)
			
 
				+    (
			
 
				+        prompt_logprobs,
			
 
				+        sample_logprobs,
			
 
				+    ) = (deferred_pythonize_logprobs(output, sampling_metadata,
			
 
				+                                     logprobs_tensor)
			
 
				+         if do_pythonize_logprobs else (None, None))
			
 
				+
			
 
				+    for sgdx, (seq_group,
			
 
				+               sample_result) in enumerate(zip(seq_groups, samples_list)):
			
 
				+
			
 
				+        if do_pythonize_logprobs:
			
 
				+            assert prompt_logprobs is not None
			
 
				+            assert sample_logprobs is not None
			
 
				+
			
 
				+            (
			
 
				+                group_prompt_logprobs,
			
 
				+                group_sample_logprobs,
			
 
				+            ) = (  # Utilize deferred pythonization results
			
 
				+                prompt_logprobs[sgdx],
			
 
				+                sample_logprobs[sgdx],
			
 
				+            )
			
 
				+        elif logprobs_are_requested:
			
 
				+            (
			
 
				+                group_prompt_logprobs,
			
 
				+                group_sample_logprobs,
			
 
				+            ) = (
			
 
				+                # profile_run: use already-computed logprobs
			
 
				+                output.outputs[sgdx].prompt_logprobs,
			
 
				+                [sample.logprobs for sample in output.outputs[sgdx].samples])
			
 
				         seq_ids = seq_group.seq_ids
			
 
				         next_token_ids = sample_result
			
 
				         parent_ids = [0]
			
 
				         seq_outputs: List[SequenceOutput] = []
			
 
				         if seq_group.sampling_params.logits_processors:
			
 
				-            assert (
			
 
				-                len(seq_group.sampling_params.logits_processors) == 0
			
 
				-            ), "Logits Processors are not supported in multi-step decoding"
			
 
				-        for parent_id, next_token_id in zip(parent_ids, next_token_ids):
			
 
				-            # TODO(will): support logprobs
			
 
				-            # Hard coded logprob
			
 
				+            assert len(seq_group.sampling_params.logits_processors) == 0, (
			
 
				+                "Logits Processors are not supported in multi-step decoding")
			
 
				+        for tdx, (parent_id,
			
 
				+                  next_token_id) in enumerate(zip(parent_ids, next_token_ids)):
			
 
				             seq_outputs.append(
			
 
				-                SequenceOutput(
			
 
				-                    seq_ids[parent_id],
			
 
				-                    next_token_id,
			
 
				-                    {next_token_id: Logprob(logprob=-1)},
			
 
				-                )
			
 
				-            )
			
 
				-        output.outputs.append(CompletionSequenceGroupOutput(seq_outputs, None))
			
 
				+                SequenceOutput(seq_ids[parent_id], next_token_id,
			
 
				+                               (group_sample_logprobs[tdx]
			
 
				+                                if logprobs_are_requested else {
			
 
				+                                    next_token_id:
			
 
				+                                    Logprob(logprob=float('inf'),
			
 
				+                                            rank=None,
			
 
				+                                            decoded_token=None)
			
 
				+                                })))
			
 
				+        output.outputs.append(
			
 
				+            CompletionSequenceGroupOutput(
			
 
				+                seq_outputs,
			
 
				+                (group_prompt_logprobs if logprobs_are_requested else None)))
			
 
				     assert len(output.outputs) > 0
			
--- a/aphrodite/task_handler/multi_step_worker.py
+++ b/aphrodite/task_handler/multi_step_worker.py
@@ -4,8 +4,9 @@ from typing import Dict, List, Optional, Tuple
 
				 
			
 
				 import torch
			
 
				 
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				 from aphrodite.distributed import broadcast_tensor_dict, get_pp_group
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.task_handler.model_runner_base import BroadcastableModelInput
			
 
				 from aphrodite.task_handler.multi_step_model_runner import (
			
 
				     MultiStepModelRunner, StatefulModelInput)
			
--- a/aphrodite/task_handler/neuron_model_runner.py
+++ b/aphrodite/task_handler/neuron_model_runner.py
@@ -7,10 +7,11 @@ from torch import nn
 
				 
			
 
				 from aphrodite.common.config import (DeviceConfig, ModelConfig, ParallelConfig,
			
 
				                                      SchedulerConfig)
			
 
				-from aphrodite.common.sequence import (IntermediateTensors, SamplerOutput,
			
 
				+from aphrodite.common.sequence import (IntermediateTensors,
			
 
				                                        SequenceGroupMetadata)
			
 
				 from aphrodite.common.utils import (is_pin_memory_available,
			
 
				                                     make_tensor_with_pad)
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.model_loader.neuron import get_neuron_model
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
 
				 from aphrodite.multimodal import (MULTIMODAL_REGISTRY, BatchedTensorInputs,
			
--- a/aphrodite/task_handler/openvino_model_runner.py
+++ b/aphrodite/task_handler/openvino_model_runner.py
@@ -9,7 +9,8 @@ from aphrodite.attention.backends.openvino import OpenVINOAttentionMetadata
 
				 from aphrodite.common.config import (CacheConfig, DeviceConfig, LoadConfig,
			
 
				                                      LoRAConfig, ModelConfig, MultiModalConfig,
			
 
				                                      ParallelConfig, SchedulerConfig)
			
 
				-from aphrodite.common.sequence import SamplerOutput, SequenceGroupMetadata
			
 
				+from aphrodite.common.sequence import SequenceGroupMetadata
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.model_loader.openvino import get_model
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
 
				 from aphrodite.multimodal import (MULTIMODAL_REGISTRY, BatchedTensorInputs,
			
--- a/aphrodite/task_handler/openvino_worker.py
+++ b/aphrodite/task_handler/openvino_worker.py
@@ -9,11 +9,12 @@ from aphrodite.attention import get_attn_backend
 
				 from aphrodite.common.config import (CacheConfig, DeviceConfig, LoadConfig,
			
 
				                                      LoRAConfig, ModelConfig, MultiModalConfig,
			
 
				                                      ParallelConfig, SchedulerConfig)
			
 
				-from aphrodite.common.sequence import ExecuteModelRequest, SamplerOutput
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest
			
 
				 from aphrodite.distributed import (broadcast_tensor_dict,
			
 
				                                    ensure_model_parallel_initialized,
			
 
				                                    init_distributed_environment)
			
 
				 from aphrodite.modeling import set_random_seed
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.task_handler.openvino_model_runner import OpenVINOModelRunner
			
 
				 from aphrodite.task_handler.worker_base import LoraNotSupportedWorkerBase
			
 
				 
			
--- a/aphrodite/task_handler/tpu_model_runner.py
+++ b/aphrodite/task_handler/tpu_model_runner.py
@@ -16,10 +16,10 @@ from aphrodite.common.config import (CacheConfig, DeviceConfig, LoadConfig,
 
				                                      SchedulerConfig)
			
 
				 from aphrodite.common.sequence import (CompletionSequenceGroupOutput,
			
 
				                                        IntermediateTensors, Logprob,
			
 
				-                                       SamplerOutput, SequenceGroupMetadata,
			
 
				-                                       SequenceOutput)
			
 
				+                                       SequenceGroupMetadata, SequenceOutput)
			
 
				 from aphrodite.compilation.wrapper import (
			
 
				     TorchCompileWrapperWithCustomDispacther)
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.model_loader import get_model
			
 
				 from aphrodite.modeling.sampling_metadata import SamplingMetadata
			
 
				 from aphrodite.task_handler.model_runner_base import (
			
--- a/aphrodite/task_handler/worker.py
+++ b/aphrodite/task_handler/worker.py
@@ -13,7 +13,7 @@ from aphrodite.common.config import (CacheConfig, DeviceConfig, LoadConfig,
 
				                                      PromptAdapterConfig, SchedulerConfig,
			
 
				                                      SpeculativeConfig)
			
 
				 from aphrodite.common.sequence import (ExecuteModelRequest,
			
 
				-                                       IntermediateTensors, SamplerOutput,
			
 
				+                                       IntermediateTensors,
			
 
				                                        SequenceGroupMetadata,
			
 
				                                        SequenceGroupMetadataDelta)
			
 
				 from aphrodite.distributed import (ensure_model_parallel_initialized,
			
@@ -22,6 +22,7 @@ from aphrodite.distributed import (ensure_model_parallel_initialized,
 
				                                    set_custom_all_reduce)
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				 from aphrodite.modeling import set_random_seed
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.model_loader.tensorizer import TensorizerConfig
			
 
				 from aphrodite.platforms import current_platform
			
 
				 from aphrodite.prompt_adapter.request import PromptAdapterRequest
			
--- a/aphrodite/task_handler/worker_base.py
+++ b/aphrodite/task_handler/worker_base.py
@@ -7,13 +7,13 @@ from typing import Any, Callable, Dict, List, Optional, Set, Tuple, Type, Union
 
				 import torch
			
 
				 from loguru import logger
			
 
				 
			
 
				-from aphrodite.common.sequence import (ExecuteModelRequest,
			
 
				-                                       IntermediateTensors, SamplerOutput)
			
 
				+from aphrodite.common.sequence import ExecuteModelRequest, IntermediateTensors
			
 
				 from aphrodite.common.utils import (enable_trace_function_call_for_thread,
			
 
				                                     update_environment_variables)
			
 
				 from aphrodite.distributed import (broadcast_tensor_dict, get_pp_group,
			
 
				                                    get_tp_group)
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.platforms import current_platform
			
 
				 from aphrodite.task_handler.model_runner_base import (BroadcastableModelInput,
			
 
				                                                       ModelRunnerBase,
			
--- a/aphrodite/task_handler/xpu_model_runner.py
+++ b/aphrodite/task_handler/xpu_model_runner.py
@@ -13,11 +13,12 @@ from aphrodite.common.config import (CacheConfig, DeviceConfig, LoadConfig,
 
				                                      LoRAConfig, ModelConfig, ParallelConfig,
			
 
				                                      PromptAdapterConfig, SchedulerConfig)
			
 
				 from aphrodite.common.sampling_params import SamplingParams
			
 
				-from aphrodite.common.sequence import (IntermediateTensors, SamplerOutput,
			
 
				+from aphrodite.common.sequence import (IntermediateTensors,
			
 
				                                        SequenceGroupMetadata)
			
 
				 from aphrodite.common.utils import CudaMemoryProfiler, make_tensor_with_pad
			
 
				 from aphrodite.distributed import get_pp_group
			
 
				 from aphrodite.inputs import INPUT_REGISTRY, InputRegistry
			
 
				+from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.modeling.model_loader import get_model
			
 
				 from aphrodite.multimodal import (MULTIMODAL_REGISTRY, BatchedTensorInputs,
			
 
				                                   MultiModalInputs, MultiModalRegistry)