2 달 전 · 86bf2cc4f3
--- a/aphrodite/endpoints/llm.py
+++ b/aphrodite/endpoints/llm.py
@@ -14,7 +14,7 @@ from aphrodite.endpoints.chat_utils import (ChatCompletionMessageParam,
 
				                                             parse_chat_messages)
			
 
				 from aphrodite.engine.aphrodite_engine import AphroditeEngine
			
 
				 from aphrodite.engine.args_tools import EngineArgs
			
 
				-from aphrodite.inputs import PromptInputs, TextPrompt, TokensPrompt
			
 
				+from aphrodite.inputs import PromptType, TextPrompt, TokensPrompt
			
 
				 from aphrodite.inputs.parse import parse_and_batch_prompt
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				 from aphrodite.modeling.guided_decoding import (
			
@@ -254,8 +254,8 @@ class LLM:
 
				     @overload
			
 
				     def generate(
			
 
				         self,
			
 
				-        inputs: Union[PromptInputs, Sequence[PromptInputs]],
			
 
				-        /,  # We may enable `inputs` keyword after removing the old API
			
 
				+        prompts: Union[PromptType, Sequence[PromptType]],
			
 
				+        /,
			
 
				         *,
			
 
				         sampling_params: Optional[Union[SamplingParams,
			
 
				                                         Sequence[SamplingParams]]] = None,
			
@@ -272,7 +272,7 @@ class LLM:
 
				     )
			
 
				     def generate(
			
 
				         self,
			
 
				-        prompts: Union[Union[PromptInputs, Sequence[PromptInputs]],
			
 
				+        prompts: Union[Union[PromptType, Sequence[PromptType]],
			
 
				                        Optional[Union[str, List[str]]]] = None,
			
 
				         sampling_params: Optional[Union[SamplingParams,
			
 
				                                         Sequence[SamplingParams]]] = None,
			
@@ -290,7 +290,9 @@ class LLM:
 
				         into a single list and pass it to this method.
			
 
				 
			
 
				         Args:
			
 
				-            inputs: A list of inputs to generate completions for.
			
 
				+            prompts: The prompts to the LLM. You may pass a sequence of prompts
			
 
				+                for batch inference. See :class:`~aphrodite.inputs.PromptType`
			
 
				+                for more details about the format of each prompts.
			
 
				             sampling_params: The sampling parameters for text generation. If
			
 
				                 None, we use the default sampling parameters.
			
 
				                 When it is a single value, it is applied to every prompt.
			
@@ -316,12 +318,13 @@ class LLM:
 
				                 "models (XForCausalLM, XForConditionalGeneration).")
			
 
				 
			
 
				         if prompt_token_ids is not None:
			
 
				-            inputs = self._convert_v1_inputs(
			
 
				+            parsed_prompts = self._convert_v1_inputs(
			
 
				                 prompts=cast(Optional[Union[str, List[str]]], prompts),
			
 
				                 prompt_token_ids=prompt_token_ids,
			
 
				             )
			
 
				         else:
			
 
				-            inputs = cast(Union[PromptInputs, Sequence[PromptInputs]], prompts)
			
 
				+            parsed_prompts = cast(Union[PromptType, Sequence[PromptType]],
			
 
				+                                  prompts)
			
 
				 
			
 
				         if isinstance(guided_options_request, dict):
			
 
				             if len(guided_options_request) > 1:
			
@@ -336,7 +339,7 @@ class LLM:
 
				             sampling_params = SamplingParams()
			
 
				 
			
 
				         self._validate_and_add_requests(
			
 
				-            inputs=inputs,
			
 
				+            prompts=parsed_prompts,
			
 
				             params=sampling_params,
			
 
				             lora_request=lora_request,
			
 
				             prompt_adapter_request=prompt_adapter_request,
			
@@ -392,9 +395,9 @@ class LLM:
 
				         conversation, mm_data = parse_chat_messages(messages, model_config,
			
 
				                                                     tokenizer)
			
 
				 
			
 
				-        prompt: Union[str, List[int]]
			
 
				+        prompt_data: Union[str, List[int]]
			
 
				         if isinstance(tokenizer, MistralTokenizer):
			
 
				-            prompt = apply_mistral_chat_template(
			
 
				+            prompt_data = apply_mistral_chat_template(
			
 
				                 tokenizer,
			
 
				                 messages=messages,
			
 
				                 chat_template=chat_template,
			
@@ -402,7 +405,7 @@ class LLM:
 
				                 tools=tools,
			
 
				             )
			
 
				         else:
			
 
				-            prompt = apply_hf_chat_template(
			
 
				+            prompt_data = apply_hf_chat_template(
			
 
				                 tokenizer,
			
 
				                 conversation=conversation,
			
 
				                 chat_template=chat_template,
			
@@ -410,17 +413,17 @@ class LLM:
 
				                 tools=tools,
			
 
				             )
			
 
				 
			
 
				-        inputs: PromptInputs
			
 
				-        if is_list_of(prompt, int):
			
 
				-            inputs = TokensPrompt(prompt_token_ids=prompt)
			
 
				+        prompt: PromptType
			
 
				+        if is_list_of(prompt_data, int):
			
 
				+            prompt = TokensPrompt(prompt_token_ids=prompt_data)
			
 
				         else:
			
 
				-            inputs = TextPrompt(prompt=prompt)
			
 
				+            prompt = TextPrompt(prompt=prompt_data)
			
 
				 
			
 
				         if mm_data is not None:
			
 
				-            inputs["multi_modal_data"] = mm_data
			
 
				+            prompt["multi_modal_data"] = mm_data
			
 
				 
			
 
				         return self.generate(
			
 
				-            inputs,
			
 
				+            prompt,
			
 
				             sampling_params=sampling_params,
			
 
				             use_tqdm=use_tqdm,
			
 
				             lora_request=lora_request,
			
@@ -490,8 +493,8 @@ class LLM:
 
				     @overload
			
 
				     def encode(
			
 
				         self,
			
 
				-        inputs: Union[PromptInputs, Sequence[PromptInputs]],
			
 
				-        /,  # We may enable `inputs` keyword after removing the old API
			
 
				+        prompts: Union[PromptType, Sequence[PromptType]],
			
 
				+        /,
			
 
				         *,
			
 
				         pooling_params: Optional[Union[PoolingParams,
			
 
				                                        Sequence[PoolingParams]]] = None,
			
@@ -508,7 +511,7 @@ class LLM:
 
				     )
			
 
				     def encode(
			
 
				         self,
			
 
				-        prompts: Union[Union[PromptInputs, Sequence[PromptInputs]],
			
 
				+        prompts: Union[Union[PromptType, Sequence[PromptType]],
			
 
				                        Optional[Union[str, List[str]]]] = None,
			
 
				         pooling_params: Optional[Union[PoolingParams,
			
 
				                                        Sequence[PoolingParams]]] = None,
			
@@ -524,9 +527,9 @@ class LLM:
 
				         into a single list and pass it to this method.
			
 
				 
			
 
				         Args:
			
 
				-            inputs: The inputs to the LLM. You may pass a sequence of inputs for
			
 
				-                batch inference. See :class:`~aphrodite.inputs.PromptInputs`
			
 
				-                for more details about the format of each input.
			
 
				+            prompts: The prompts to the LLM. You may pass a sequence of prompts
			
 
				+                for batch inference. See :class:`~aphrodite.inputs.PromptType`
			
 
				+                for more details about the format of each prompts.
			
 
				             pooling_params: The pooling parameters for pooling. If None, we
			
 
				                 use the default pooling parameters.
			
 
				             use_tqdm: Whether to use tqdm to display the progress bar.
			
@@ -549,19 +552,20 @@ class LLM:
 
				             )
			
 
				 
			
 
				         if prompt_token_ids is not None:
			
 
				-            inputs = self._convert_v1_inputs(
			
 
				+            parsed_prompts = self._convert_v1_inputs(
			
 
				                 prompts=cast(Optional[Union[str, List[str]]], prompts),
			
 
				                 prompt_token_ids=prompt_token_ids,
			
 
				             )
			
 
				         else:
			
 
				-            inputs = cast(Union[PromptInputs, Sequence[PromptInputs]], prompts)
			
 
				+            parsed_prompts = cast(Union[PromptType, Sequence[PromptType]],
			
 
				+                                  prompts)
			
 
				 
			
 
				         if pooling_params is None:
			
 
				             # Use default pooling params.
			
 
				             pooling_params = PoolingParams()
			
 
				 
			
 
				         self._validate_and_add_requests(
			
 
				-            inputs=inputs,
			
 
				+            prompts=parsed_prompts,
			
 
				             params=pooling_params,
			
 
				             lora_request=lora_request,
			
 
				             prompt_adapter_request=prompt_adapter_request,
			
@@ -599,9 +603,9 @@ class LLM:
 
				             raise ValueError("Either prompts or prompt_token_ids must be "
			
 
				                              "provided.")
			
 
				 
			
 
				-        inputs: List[PromptInputs] = []
			
 
				+        parsed_prompts: List[PromptType] = []
			
 
				         for i in range(num_requests):
			
 
				-            item: PromptInputs
			
 
				+            item: PromptType
			
 
				 
			
 
				             if prompts is not None:
			
 
				                 item = TextPrompt(prompt=prompts[i])
			
@@ -610,24 +614,24 @@ class LLM:
 
				             else:
			
 
				                 raise AssertionError
			
 
				 
			
 
				-            inputs.append(item)
			
 
				+            parsed_prompts.append(item)
			
 
				 
			
 
				-        return inputs
			
 
				+        return parsed_prompts
			
 
				 
			
 
				     def _validate_and_add_requests(
			
 
				         self,
			
 
				-        inputs: Union[PromptInputs, Sequence[PromptInputs]],
			
 
				+        prompts: Union[PromptType, Sequence[PromptType]],
			
 
				         params: Union[SamplingParams, Sequence[SamplingParams], PoolingParams,
			
 
				                       Sequence[PoolingParams]],
			
 
				         lora_request: Optional[Union[Sequence[LoRARequest], LoRARequest]],
			
 
				         prompt_adapter_request: Optional[PromptAdapterRequest],
			
 
				         guided_options: Optional[GuidedDecodingRequest] = None,
			
 
				     ) -> None:
			
 
				-        if isinstance(inputs, (str, dict)):
			
 
				+        if isinstance(prompts, (str, dict)):
			
 
				             # Convert a single prompt to a list.
			
 
				-            inputs = [inputs]
			
 
				+            prompts = [prompts]
			
 
				 
			
 
				-        num_requests = len(inputs)
			
 
				+        num_requests = len(prompts)
			
 
				         if isinstance(params, list) and len(params) != num_requests:
			
 
				             raise ValueError("The lengths of prompts and params "
			
 
				                              "must be the same.")
			
@@ -644,9 +648,9 @@ class LLM:
 
				                 sp.output_kind = RequestOutputKind.FINAL_ONLY
			
 
				 
			
 
				         # Add requests to the engine.
			
 
				-        for i, request_inputs in enumerate(inputs):
			
 
				+        for i, prompt in enumerate(prompts):
			
 
				             self._add_request(
			
 
				-                request_inputs,
			
 
				+                prompt,
			
 
				                 params[i] if isinstance(params, Sequence) else params,
			
 
				                 lora_request=lora_request[i] if isinstance(
			
 
				                     lora_request, Sequence) else lora_request,
			
@@ -655,7 +659,7 @@ class LLM:
 
				 
			
 
				     def _add_request(
			
 
				         self,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         params: Union[SamplingParams, PoolingParams],
			
 
				         lora_request: Optional[LoRARequest] = None,
			
 
				         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
			
@@ -663,7 +667,7 @@ class LLM:
 
				         request_id = str(next(self.request_counter))
			
 
				         self.llm_engine.add_request(
			
 
				             request_id,
			
 
				-            inputs,
			
 
				+            prompt,
			
 
				             params,
			
 
				             lora_request=lora_request,
			
 
				             prompt_adapter_request=prompt_adapter_request,
			
--- a/aphrodite/engine/aphrodite_engine.py
+++ b/aphrodite/engine/aphrodite_engine.py
@@ -38,7 +38,7 @@ from aphrodite.engine.output_processor.util import (
 
				 from aphrodite.executor.executor_base import ExecutorBase
			
 
				 from aphrodite.executor.ray_utils import initialize_ray_cluster
			
 
				 from aphrodite.inputs import (INPUT_REGISTRY, EncoderDecoderLLMInputs,
			
 
				-                              InputRegistry, LLMInputs, PromptInputs)
			
 
				+                              InputRegistry, LLMInputs, PromptType)
			
 
				 from aphrodite.inputs.preprocess import InputPreprocessor
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				 from aphrodite.modeling.layers.sampler import SamplerOutput
			
@@ -613,7 +613,7 @@ class AphroditeEngine:
 
				     def add_request(
			
 
				         self,
			
 
				         request_id: str,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         params: Union[SamplingParams, PoolingParams],
			
 
				         arrival_time: Optional[float] = None,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
@@ -627,8 +627,9 @@ class AphroditeEngine:
 
				 
			
 
				         Args:
			
 
				             request_id: The unique ID of the request.
			
 
				-            prompt: The prompt string. Can be None if prompt_token_ids is
			
 
				-                provided.
			
 
				+            prompt: The prompt to the LLM. See
			
 
				+                :class:`~aphrodite.common.inputs.PromptType`
			
 
				+                for more details about the format of each input.
			
 
				             params: Parameters for sampling or pooling. SamplingParams
			
 
				                 for text generation. PoolingParams for pooling.
			
 
				             prompt_token_ids: The token IDs of the prompt. If None, we
			
@@ -669,7 +670,7 @@ class AphroditeEngine:
 
				             arrival_time = time.time()
			
 
				 
			
 
				         preprocessed_inputs = self.input_preprocessor.preprocess(
			
 
				-            inputs,
			
 
				+            prompt,
			
 
				             request_id=request_id,
			
 
				             lora_request=lora_request,
			
 
				             prompt_adapter_request=prompt_adapter_request,
			
--- a/aphrodite/engine/async_aphrodite.py
+++ b/aphrodite/engine/async_aphrodite.py
@@ -24,7 +24,7 @@ from aphrodite.engine.async_timeout import asyncio_timeout
 
				 from aphrodite.engine.metrics_types import StatLoggerBase
			
 
				 from aphrodite.executor.executor_base import ExecutorAsyncBase
			
 
				 from aphrodite.executor.ray_utils import initialize_ray_cluster
			
 
				-from aphrodite.inputs import PromptInputs
			
 
				+from aphrodite.inputs import PromptType
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				 from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.processing.scheduler import SchedulerOutputs
			
@@ -397,7 +397,7 @@ class _AsyncAphrodite(AphroditeEngine):
 
				     async def add_request_async(
			
 
				         self,
			
 
				         request_id: str,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         params: Union[SamplingParams, PoolingParams],
			
 
				         arrival_time: Optional[float] = None,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
@@ -411,7 +411,7 @@ class _AsyncAphrodite(AphroditeEngine):
 
				             arrival_time = time.time()
			
 
				 
			
 
				         preprocessed_inputs = await self.input_preprocessor.preprocess_async(
			
 
				-            inputs,
			
 
				+            prompt,
			
 
				             request_id=request_id,
			
 
				             lora_request=lora_request,
			
 
				             prompt_adapter_request=prompt_adapter_request,
			
@@ -766,7 +766,7 @@ class AsyncAphrodite:
 
				     async def add_request(
			
 
				         self,
			
 
				         request_id: str,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         params: Union[SamplingParams, PoolingParams],
			
 
				         arrival_time: Optional[float] = None,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
@@ -785,7 +785,7 @@ class AsyncAphrodite:
 
				         stream = self._request_tracker.add_request(
			
 
				             request_id,
			
 
				             verbose=self.log_requests,
			
 
				-            inputs=inputs,
			
 
				+            prompt=prompt,
			
 
				             params=params,
			
 
				             arrival_time=arrival_time or time.time(),
			
 
				             lora_request=lora_request,
			
@@ -795,7 +795,7 @@ class AsyncAphrodite:
 
				 
			
 
				     async def generate(
			
 
				         self,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         sampling_params: SamplingParams,
			
 
				         request_id: str,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
@@ -808,9 +808,8 @@ class AsyncAphrodite:
 
				         outputs from the AphroditeEngine to the caller.
			
 
				 
			
 
				         Args:
			
 
				-            inputs: The inputs to the LLM. See
			
 
				-                :class:`~aphrodite.inputs.PromptInputs`
			
 
				-                for more details about the format of each input.
			
 
				+            prompt: The prompt to the LLM. See
			
 
				+                :class:`~aphrodite.inputs.PromptType`
			
 
				             sampling_params: The sampling parameters of the request.
			
 
				             request_id: The unique id of the request.
			
 
				             lora_request: LoRA request to use for generation, if any.
			
@@ -867,7 +866,7 @@ class AsyncAphrodite:
 
				         """
			
 
				         async for output in await self.add_request(
			
 
				                 request_id,
			
 
				-                inputs,
			
 
				+                prompt,
			
 
				                 sampling_params,
			
 
				                 lora_request=lora_request,
			
 
				                 prompt_adapter_request=prompt_adapter_request,
			
@@ -876,7 +875,7 @@ class AsyncAphrodite:
 
				 
			
 
				     async def encode(
			
 
				         self,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         pooling_params: PoolingParams,
			
 
				         request_id: str,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
@@ -888,8 +887,8 @@ class AsyncAphrodite:
 
				         outputs from the AphroditeEngine to the caller.
			
 
				 
			
 
				         Args:
			
 
				-            inputs: The inputs to the LLM. See
			
 
				-                :class:`~aphrodite.inputs.PromptInputs`
			
 
				+            prompt: The prompt to the LLM. See
			
 
				+                :class:`~aphrodite.inputs.PromptType`
			
 
				                 for more details about the format of each input.
			
 
				             pooling_params: The pooling parameters of the request.
			
 
				             request_id: The unique id of the request.
			
@@ -942,7 +941,7 @@ class AsyncAphrodite:
 
				         """
			
 
				         async for output in await self.add_request(
			
 
				                 request_id,
			
 
				-                inputs,
			
 
				+                prompt,
			
 
				                 pooling_params,
			
 
				                 lora_request=lora_request,
			
 
				         ):
			
--- a/aphrodite/engine/multiprocessing/__init__.py
+++ b/aphrodite/engine/multiprocessing/__init__.py
@@ -5,7 +5,7 @@ from typing import List, Mapping, Optional, Union
 
				 from aphrodite import PoolingParams
			
 
				 from aphrodite.common.outputs import RequestOutput
			
 
				 from aphrodite.common.sampling_params import SamplingParams
			
 
				-from aphrodite.inputs import PromptInputs
			
 
				+from aphrodite.inputs import PromptType
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				 from aphrodite.prompt_adapter.request import PromptAdapterRequest
			
 
				 
			
@@ -23,7 +23,7 @@ class MQEngineDeadError(RuntimeError):
 
				 
			
 
				 @dataclass
			
 
				 class RPCProcessRequest:
			
 
				-    inputs: PromptInputs
			
 
				+    prompt: PromptType
			
 
				     params: Union[SamplingParams, PoolingParams]
			
 
				     request_id: str
			
 
				     lora_request: Optional[LoRARequest] = None
			
--- a/aphrodite/engine/multiprocessing/client.py
+++ b/aphrodite/engine/multiprocessing/client.py
@@ -26,7 +26,7 @@ from aphrodite.engine.multiprocessing import (APHRODITE_RPC_SUCCESS_STR,
 
				                                               RPCProcessRequest,
			
 
				                                               RPCStartupRequest,
			
 
				                                               RPCStartupResponse)
			
 
				-from aphrodite.inputs import PromptInputs
			
 
				+from aphrodite.inputs import PromptType
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				 from aphrodite.prompt_adapter.request import PromptAdapterRequest
			
 
				 from aphrodite.transformers_utils.tokenizer_group import (
			
@@ -375,7 +375,7 @@ class MQAphroditeEngineClient:
 
				 
			
 
				     def generate(
			
 
				         self,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         sampling_params: SamplingParams,
			
 
				         request_id: str,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
@@ -386,8 +386,8 @@ class MQAphroditeEngineClient:
 
				         request into the waiting queue of the AphroditeEngine and streams the
			
 
				         outputs from the AphroditeEngine to the caller.
			
 
				         Args:
			
 
				-            inputs: The inputs to the LLM. See
			
 
				-                :class:`~aphrodite.inputs.PromptInputs`
			
 
				+            prompt: The prompt to the LLM. See
			
 
				+                :class:`~aphrodite.inputs.PromptType`
			
 
				                 for more details about the format of each input.
			
 
				             sampling_params: The sampling parameters of the request.
			
 
				             request_id: The unique id of the request.
			
@@ -395,12 +395,12 @@ class MQAphroditeEngineClient:
 
				             prompt_adapter_request: Prompt Adapter request to use
			
 
				                                             for generation, if any.
			
 
				         """
			
 
				-        return self._process_request(inputs, sampling_params, request_id,
			
 
				+        return self._process_request(prompt, sampling_params, request_id,
			
 
				                                      lora_request, prompt_adapter_request)
			
 
				 
			
 
				     def encode(
			
 
				         self,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         pooling_params: PoolingParams,
			
 
				         request_id: str,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
@@ -410,8 +410,8 @@ class MQAphroditeEngineClient:
 
				         request into the waiting queue of the AphroditeEngine and streams the
			
 
				         outputs from the AphroditeEngine to the caller.
			
 
				         Args:
			
 
				-            inputs: The inputs to the LLM. See
			
 
				-                :class:`~aphrodite.inputs.PromptInputs`
			
 
				+            prompt: The prompt to the LLM. See
			
 
				+                :class:`~aphrodite.inputs.PromptType`
			
 
				                 for more details about the format of each input.
			
 
				             pooling_params: The pooling parameters of the request.
			
 
				             request_id: The unique id of the request.
			
@@ -420,12 +420,12 @@ class MQAphroditeEngineClient:
 
				             The output `EmbeddingRequestOutput` objects from the AphroditeEngine
			
 
				             for the request.
			
 
				         """
			
 
				-        return self._process_request(inputs, pooling_params, request_id,
			
 
				+        return self._process_request(prompt, pooling_params, request_id,
			
 
				                                      lora_request)
			
 
				 
			
 
				     async def _process_request(
			
 
				         self,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         params: Union[SamplingParams, PoolingParams],
			
 
				         request_id: str,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
@@ -457,7 +457,7 @@ class MQAphroditeEngineClient:
 
				 
			
 
				             request_bytes = pickle.dumps(
			
 
				                 RPCProcessRequest(
			
 
				-                    inputs=inputs,
			
 
				+                    prompt=prompt,
			
 
				                     params=params,
			
 
				                     request_id=request_id,
			
 
				                     lora_request=lora_request,
			
--- a/aphrodite/engine/multiprocessing/engine.py
+++ b/aphrodite/engine/multiprocessing/engine.py
@@ -246,7 +246,7 @@ class MQAphroditeEngine:
 
				         try:
			
 
				             self.engine.add_request(
			
 
				                 request_id=request_id,
			
 
				-                inputs=request.inputs,
			
 
				+                prompt=request.prompt,
			
 
				                 params=request.params,
			
 
				                 lora_request=request.lora_request,
			
 
				                 prompt_adapter_request=request.prompt_adapter_request)
			
--- a/aphrodite/engine/protocol.py
+++ b/aphrodite/engine/protocol.py
@@ -6,7 +6,7 @@ from aphrodite.common.config import DecodingConfig, ModelConfig
 
				 from aphrodite.common.outputs import EmbeddingRequestOutput, RequestOutput
			
 
				 from aphrodite.common.pooling_params import PoolingParams
			
 
				 from aphrodite.common.sampling_params import SamplingParams
			
 
				-from aphrodite.inputs.data import PromptInputs
			
 
				+from aphrodite.inputs.data import PromptType
			
 
				 from aphrodite.lora.request import LoRARequest
			
 
				 from aphrodite.modeling.layers.sampler import SamplerOutput
			
 
				 from aphrodite.processing.scheduler import SchedulerOutputs
			
@@ -35,7 +35,7 @@ class EngineClient(Protocol):
 
				 
			
 
				     def generate(
			
 
				         self,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         sampling_params: SamplingParams,
			
 
				         request_id: str,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
@@ -46,7 +46,7 @@ class EngineClient(Protocol):
 
				 
			
 
				     def encode(
			
 
				         self,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         pooling_params: PoolingParams,
			
 
				         request_id: str,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
--- a/aphrodite/inputs/__init__.py
+++ b/aphrodite/inputs/__init__.py
@@ -1,5 +1,5 @@
 
				 from .data import (EncoderDecoderLLMInputs, ExplicitEncoderDecoderPrompt,
			
 
				-                   LLMInputs, PromptInputs, SingletonPromptInputs, TextPrompt,
			
 
				+                   LLMInputs, PromptType, SingletonPrompt, TextPrompt,
			
 
				                    TokensPrompt, build_explicit_enc_dec_prompt,
			
 
				                    to_enc_dec_tuple_list, zip_enc_dec_prompts)
			
 
				 from .registry import InputContext, InputRegistry
			
@@ -9,6 +9,7 @@ INPUT_REGISTRY = InputRegistry()
 
				 The global :class:`~InputRegistry` which is used by
			
 
				 :class:`~aphrodite.AphroditeEngine`
			
 
				 to dispatch data processing according to the target model.
			
 
				+
			
 
				 See also:
			
 
				     :ref:`input_processing_pipeline`
			
 
				 """
			
@@ -16,8 +17,8 @@ See also:
 
				 __all__ = [
			
 
				     "TextPrompt",
			
 
				     "TokensPrompt",
			
 
				-    "PromptInputs",
			
 
				-    "SingletonPromptInputs",
			
 
				+    "PromptType",
			
 
				+    "SingletonPrompt",
			
 
				     "ExplicitEncoderDecoderPrompt",
			
 
				     "LLMInputs",
			
 
				     "EncoderDecoderLLMInputs",
			
--- a/aphrodite/inputs/data.py
+++ b/aphrodite/inputs/data.py
@@ -33,31 +33,34 @@ class TokensPrompt(TypedDict):
 
				     """
			
 
				 
			
 
				 
			
 
				-SingletonPromptInputs = Union[str, TextPrompt, TokensPrompt]
			
 
				+SingletonPrompt = Union[str, TextPrompt, TokensPrompt]
			
 
				 """
			
 
				 Set of possible schemas for a single LLM input:
			
 
				+
			
 
				 - A text prompt (:class:`str` or :class:`TextPrompt`)
			
 
				 - A tokenized prompt (:class:`TokensPrompt`)
			
 
				+
			
 
				 Note that "singleton" is as opposed to a data structure
			
 
				 which encapsulates multiple prompts, i.e. of the sort
			
 
				 which may be utilized for encoder/decoder models when
			
 
				 the user desires to express both the encoder & decoder
			
 
				-prompts explicitly, i.e. ExplicitEncoderDecoderPrompt
			
 
				-A prompt of type SingletonPromptInputs may be employed
			
 
				+prompts explicitly, i.e. :class:`ExplicitEncoderDecoderPrompt`
			
 
				+
			
 
				+A prompt of type :class:`SingletonPromptType` may be employed
			
 
				 as (1) input to a decoder-only model, (2) input to
			
 
				 the encoder of an encoder/decoder model, in the scenario
			
 
				 where the decoder-prompt is not specified explicitly, or
			
 
				 (3) as a member of a larger data structure encapsulating
			
 
				-more than one prompt, i.e. ExplicitEncoderDecoderPrompt
			
 
				+more than one prompt, i.e. :class:`ExplicitEncoderDecoderPrompt`
			
 
				 """
			
 
				 
			
 
				 _T1_co = TypeVar("_T1_co",
			
 
				-                 bound=SingletonPromptInputs,
			
 
				-                 default=SingletonPromptInputs,
			
 
				+                 bound=SingletonPrompt,
			
 
				+                 default=SingletonPrompt,
			
 
				                  covariant=True)
			
 
				 _T2_co = TypeVar("_T2_co",
			
 
				-                 bound=SingletonPromptInputs,
			
 
				-                 default=SingletonPromptInputs,
			
 
				+                 bound=SingletonPrompt,
			
 
				+                 default=SingletonPrompt,
			
 
				                  covariant=True)
			
 
				 
			
 
				 
			
@@ -66,16 +69,19 @@ class ExplicitEncoderDecoderPrompt(TypedDict, Generic[_T1_co, _T2_co]):
 
				     """Represents an encoder/decoder model input prompt,
			
 
				     comprising an explicit encoder prompt and a 
			
 
				     decoder prompt.
			
 
				+
			
 
				     The encoder and decoder prompts, respectively,
			
 
				     may formatted according to any of the
			
 
				-    SingletonPromptInputs schemas, and are not
			
 
				+    :class:`SingletonPromptType` schemas, and are not
			
 
				     required to have the same schema.
			
 
				+
			
 
				     Only the encoder prompt may have multi-modal data.
			
 
				-    Note that an ExplicitEncoderDecoderPrompt may not
			
 
				+
			
 
				+    Note that an :class:`ExplicitEncoderDecoderPrompt` may not
			
 
				     be used as an input to a decoder-only model,
			
 
				     and that the `encoder_prompt` and `decoder_prompt`
			
 
				-    fields of this data structure may not themselves
			
 
				-    must be SingletonPromptInputs instances.
			
 
				+    fields of this data structure themselves must be
			
 
				+    :class:`SingletonPromptType` instances.
			
 
				     """
			
 
				 
			
 
				     encoder_prompt: _T1_co
			
@@ -83,10 +89,11 @@ class ExplicitEncoderDecoderPrompt(TypedDict, Generic[_T1_co, _T2_co]):
 
				     decoder_prompt: Optional[_T2_co]
			
 
				 
			
 
				 
			
 
				-PromptInputs = Union[SingletonPromptInputs, ExplicitEncoderDecoderPrompt]
			
 
				+PromptType = Union[SingletonPrompt, ExplicitEncoderDecoderPrompt]
			
 
				 """
			
 
				 Set of possible schemas for an LLM input, including
			
 
				 both decoder-only and encoder/decoder input types:
			
 
				+
			
 
				 - A text prompt (:class:`str` or :class:`TextPrompt`)
			
 
				 - A tokenized prompt (:class:`TokensPrompt`)
			
 
				 - A single data structure containing both an encoder and a decoder prompt
			
@@ -96,12 +103,11 @@ both decoder-only and encoder/decoder input types:
 
				 
			
 
				 class LLMInputs(TypedDict):
			
 
				     """
			
 
				-    The inputs in :class:`~aphrodite.AphroditeEngine` before they are
			
 
				+    The inputs in :class:`~vllm.LLMEngine` before they are
			
 
				     passed to the model executor.
			
 
				 
			
 
				     This specifies the data required for decoder-only models.
			
 
				     """
			
 
				-
			
 
				     prompt_token_ids: List[int]
			
 
				     """The token IDs of the prompt."""
			
 
				 
			
@@ -119,8 +125,9 @@ class LLMInputs(TypedDict):
 
				 
			
 
				 class EncoderDecoderLLMInputs(LLMInputs):
			
 
				     """
			
 
				-    The inputs in :class:`~aphrodite.AphroditeEngine` before they are
			
 
				+    The inputs in :class:`~vllm.LLMEngine` before they are
			
 
				     passed to the model executor.
			
 
				+
			
 
				     This specifies the required data for encoder-decoder models.
			
 
				     """
			
 
				     encoder_prompt_token_ids: List[int]
			
@@ -133,12 +140,8 @@ class EncoderDecoderLLMInputs(LLMInputs):
 
				     """
			
 
				 
			
 
				 
			
 
				-_T1 = TypeVar("_T1",
			
 
				-              bound=SingletonPromptInputs,
			
 
				-              default=SingletonPromptInputs)
			
 
				-_T2 = TypeVar("_T2",
			
 
				-              bound=SingletonPromptInputs,
			
 
				-              default=SingletonPromptInputs)
			
 
				+_T1 = TypeVar("_T1", bound=SingletonPrompt, default=SingletonPrompt)
			
 
				+_T2 = TypeVar("_T2", bound=SingletonPrompt, default=SingletonPrompt)
			
 
				 
			
 
				 
			
 
				 def build_explicit_enc_dec_prompt(
			
--- a/aphrodite/inputs/parse.py
+++ b/aphrodite/inputs/parse.py
@@ -5,7 +5,7 @@ from typing_extensions import TypeIs
 
				 from aphrodite.common.utils import is_list_of
			
 
				 
			
 
				 from .data import (EncoderDecoderLLMInputs, ExplicitEncoderDecoderPrompt,
			
 
				-                   LLMInputs, PromptInputs, SingletonPromptInputs, TextPrompt,
			
 
				+                   LLMInputs, PromptType, SingletonPrompt, TextPrompt,
			
 
				                    TokensPrompt)
			
 
				 
			
 
				 
			
@@ -81,22 +81,23 @@ class ParsedTokensPrompt(TypedDict):
 
				 
			
 
				 
			
 
				 def parse_singleton_prompt(
			
 
				-    inputs: SingletonPromptInputs,
			
 
				+    prompt: SingletonPrompt,
			
 
				 ) -> Union[ParsedStrPrompt, ParsedTextPrompt, ParsedTokensPrompt]:
			
 
				-    if isinstance(inputs, str):
			
 
				-        return ParsedStrPrompt(type="str", content=inputs)
			
 
				-    elif isinstance(inputs, dict):
			
 
				-        if "prompt_token_ids" in inputs:
			
 
				+    if isinstance(prompt, str):
			
 
				+        return ParsedStrPrompt(type="str", content=prompt)
			
 
				+    elif isinstance(prompt, dict):
			
 
				+        if "prompt_token_ids" in prompt:
			
 
				             return ParsedTokensPrompt(type="tokens",
			
 
				-                                      content=inputs)  # type: ignore
			
 
				-        elif "prompt" in inputs:
			
 
				-            return ParsedTextPrompt(type="text", content=inputs)
			
 
				+                                      content=prompt)  # type: ignore
			
 
				+        elif "prompt" in prompt:
			
 
				+            return ParsedTextPrompt(type="text", content=prompt)
			
 
				+
			
 
				     raise TypeError("inputs must be a string, TextPrompt, or TokensPrompt")
			
 
				 
			
 
				 
			
 
				 def is_explicit_encoder_decoder_prompt(
			
 
				-        inputs: PromptInputs) -> TypeIs[ExplicitEncoderDecoderPrompt]:
			
 
				-    return isinstance(inputs, dict) and "encoder_prompt" in inputs
			
 
				+        prompt: PromptType) -> TypeIs[ExplicitEncoderDecoderPrompt]:
			
 
				+    return isinstance(prompt, dict) and "encoder_prompt" in prompt
			
 
				 
			
 
				 
			
 
				 def is_valid_encoder_decoder_llm_inputs(
			
--- a/aphrodite/inputs/preprocess.py
+++ b/aphrodite/inputs/preprocess.py
@@ -9,102 +9,98 @@ from aphrodite.lora.request import LoRARequest
 
				 from aphrodite.prompt_adapter.request import PromptAdapterRequest
			
 
				 from aphrodite.transformers_utils.tokenizer_group import BaseTokenizerGroup
			
 
				 
			
 
				-from .data import (EncoderDecoderLLMInputs, LLMInputs, PromptInputs,
			
 
				-                   SingletonPromptInputs)
			
 
				+from .data import (EncoderDecoderLLMInputs, LLMInputs, PromptType,
			
 
				+                   SingletonPrompt)
			
 
				 from .parse import is_explicit_encoder_decoder_prompt, parse_singleton_prompt
			
 
				 
			
 
				 if TYPE_CHECKING:
			
 
				     from aphrodite.multimodal import MultiModalDataDict
			
 
				 
			
 
				 
			
 
				-PromptComponents = Tuple[
			
 
				-    Optional[str], List[int], Optional["MultiModalDataDict"]
			
 
				-]
			
 
				-DecoderPromptComponents = Tuple[
			
 
				-    Optional[str], Optional[List[int]], Optional["MultiModalDataDict"]
			
 
				-]
			
 
				+PromptComponents = Tuple[Optional[str], List[int],
			
 
				+                         Optional["MultiModalDataDict"]]
			
 
				+DecoderPromptComponents = Tuple[Optional[str], Optional[List[int]],
			
 
				+                                Optional["MultiModalDataDict"]]
			
 
				 
			
 
				 
			
 
				 class InputPreprocessor:
			
 
				+
			
 
				     def __init__(
			
 
				         self,
			
 
				         model_config: ModelConfig,
			
 
				         tokenizer: Optional[BaseTokenizerGroup],
			
 
				     ) -> None:
			
 
				         super().__init__()
			
 
				+
			
 
				         self.model_config = model_config
			
 
				         self.tokenizer = tokenizer
			
 
				 
			
 
				     def get_tokenizer_group(self) -> BaseTokenizerGroup:
			
 
				         if self.tokenizer is None:
			
 
				-            raise ValueError(
			
 
				-                "You cannot pass text prompts when "
			
 
				-                "`skip_tokenizer_init` is True"
			
 
				-            )
			
 
				+            raise ValueError("You cannot pass text prompts when "
			
 
				+                             "`skip_tokenizer_init` is True")
			
 
				+
			
 
				         return self.tokenizer
			
 
				 
			
 
				-    def get_bos_token_id(
			
 
				-        self, lora_request: Optional[LoRARequest] = None
			
 
				-    ) -> Optional[int]:
			
 
				+    def get_bos_token_id(self,
			
 
				+                         lora_request: Optional[LoRARequest] = None
			
 
				+                         ) -> Optional[int]:
			
 
				         if self.tokenizer is None:
			
 
				-            logger.warning(
			
 
				-                "Using None for BOS token id because tokenizer "
			
 
				-                "is not initialized"
			
 
				-            )
			
 
				+            logger.warning("Using None for BOS token id because tokenizer "
			
 
				+                           "is not initialized")
			
 
				             return None
			
 
				+
			
 
				         return self.tokenizer.get_lora_tokenizer(lora_request).bos_token_id
			
 
				 
			
 
				-    def get_eos_token_id(
			
 
				-        self, lora_request: Optional[LoRARequest] = None
			
 
				-    ) -> Optional[int]:
			
 
				+    def get_eos_token_id(self,
			
 
				+                         lora_request: Optional[LoRARequest] = None
			
 
				+                         ) -> Optional[int]:
			
 
				         if self.tokenizer is None:
			
 
				-            logger.warning(
			
 
				-                "Using None for EOS token id because tokenizer "
			
 
				-                "is not initialized"
			
 
				-            )
			
 
				+            logger.warning("Using None for EOS token id because tokenizer "
			
 
				+                           "is not initialized")
			
 
				             return None
			
 
				+
			
 
				         return self.tokenizer.get_lora_tokenizer(lora_request).eos_token_id
			
 
				 
			
 
				     def get_decoder_start_token_id(self) -> Optional[int]:
			
 
				-        """
			
 
				+        '''
			
 
				         Obtain the decoder start token id employed by an encoder/decoder
			
 
				         model. Returns None for non-encoder/decoder models or if the
			
 
				         model config is unavailable.
			
 
				-        """
			
 
				+        '''
			
 
				+
			
 
				         if not self.is_encoder_decoder_model():
			
 
				-            logger.warning(
			
 
				-                "Using None for decoder start token id because "
			
 
				-                "this is not an encoder/decoder model."
			
 
				-            )
			
 
				+            logger.warning("Using None for decoder start token id because "
			
 
				+                           "this is not an encoder/decoder model.")
			
 
				             return None
			
 
				-        if self.model_config is None or self.model_config.hf_config is None:
			
 
				-            logger.warning(
			
 
				-                "Using None for decoder start token id because "
			
 
				-                "model config is not available."
			
 
				-            )
			
 
				+
			
 
				+        if (self.model_config is None or self.model_config.hf_config is None):
			
 
				+            logger.warning("Using None for decoder start token id because "
			
 
				+                           "model config is not available.")
			
 
				             return None
			
 
				-        dec_start_token_id = getattr(
			
 
				-            self.model_config.hf_config, "decoder_start_token_id", None
			
 
				-        )
			
 
				+
			
 
				+        dec_start_token_id = getattr(self.model_config.hf_config,
			
 
				+                                     'decoder_start_token_id', None)
			
 
				         if dec_start_token_id is None:
			
 
				-            logger.warning(
			
 
				-                "Falling back on <BOS> for decoder start token id "
			
 
				-                "because decoder start token id is not available."
			
 
				-            )
			
 
				+            logger.warning("Falling back on <BOS> for decoder start token id "
			
 
				+                           "because decoder start token id is not available.")
			
 
				             dec_start_token_id = self.get_bos_token_id()
			
 
				+
			
 
				         return dec_start_token_id
			
 
				 
			
 
				     def _get_default_enc_dec_decoder_prompt(self) -> List[int]:
			
 
				-        """
			
 
				+        '''
			
 
				         Specifically for encoder/decoder models:
			
 
				         generate a default decoder prompt for when
			
 
				         the user specifies only the encoder prompt.
			
 
				+
			
 
				         Encoder/decoder models utilize the decoder
			
 
				         prompt in different ways; as new models are
			
 
				         added, it is intended that this function
			
 
				         will be extended to produce differing
			
 
				         default decoder prompts, depending on the
			
 
				         model variety.
			
 
				+
			
 
				         Absent a special case, the default behavior
			
 
				         of this method is to mirror the behavior of
			
 
				         the HuggingFace (HF) GenerationMixin for a None
			
@@ -112,14 +108,18 @@ class InputPreprocessor:
 
				         setting to force the first decoded token to be <BOS>.
			
 
				         Here, this behavior is approximated by having the
			
 
				         "default" decoder prompt be <BOS>.
			
 
				+
			
 
				         However, it is possible that in the future
			
 
				-        other models may have different or more
			
 
				+        other models may have different or more 
			
 
				         complex logic for the default decoder prompt.
			
 
				         This motivates having a special helper method
			
 
				         for default decoder prompts.
			
 
				+
			
 
				         Returns:
			
 
				+
			
 
				         * prompt_token_ids
			
 
				-        """
			
 
				+        '''
			
 
				+
			
 
				         bos_token_id = self.get_bos_token_id()
			
 
				         assert bos_token_id is not None
			
 
				         return [bos_token_id]
			
@@ -130,27 +130,36 @@ class InputPreprocessor:
 
				     ) -> List[int]:
			
 
				         """
			
 
				         Prepares `decoder_input_ids` for generation with encoder-decoder models.
			
 
				+
			
 
				         Based on
			
 
				+
			
 
				         https://github.com/huggingface/transformers/blob/
			
 
				         4037a2b5b1278736e566aec12e169100275545ea/
			
 
				         src/transformers/generation/utils.py
			
 
				+
			
 
				         specifically GenerationMixin._prepare_decoder_input_ids_for_generation()
			
 
				+
			
 
				         Arguments:
			
 
				+
			
 
				         * decoder_input_ids: input token ids to preprocess
			
 
				+
			
 
				         Returns:
			
 
				+
			
 
				         * Processed token list
			
 
				         """
			
 
				+
			
 
				         decoder_start_token_id = self.get_decoder_start_token_id()
			
 
				         assert decoder_start_token_id is not None
			
 
				+
			
 
				         if decoder_input_ids is None:
			
 
				             # no decoder prompt input ->
			
 
				             # use decoder_start_token_id as decoder_input_ids
			
 
				             decoder_input_ids = self._get_default_enc_dec_decoder_prompt()
			
 
				-        if (
			
 
				-            len(decoder_input_ids) == 0
			
 
				-            or decoder_input_ids[0] != decoder_start_token_id
			
 
				-        ):
			
 
				+
			
 
				+        if (len(decoder_input_ids) == 0
			
 
				+                or decoder_input_ids[0] != decoder_start_token_id):
			
 
				             decoder_input_ids = [decoder_start_token_id] + decoder_input_ids
			
 
				+
			
 
				         return decoder_input_ids
			
 
				 
			
 
				     def _apply_prompt_adapter(
			
@@ -161,8 +170,8 @@ class InputPreprocessor:
 
				         if prompt_adapter_request:
			
 
				             prompt_token_ids = (
			
 
				                 [0] * prompt_adapter_request.prompt_adapter_num_virtual_tokens
			
 
				-                + prompt_token_ids
			
 
				-            )
			
 
				+                + prompt_token_ids)
			
 
				+
			
 
				         return prompt_token_ids
			
 
				 
			
 
				     def _tokenize_prompt(
			
@@ -176,9 +185,10 @@ class InputPreprocessor:
 
				         corresponding token IDs.
			
 
				         """
			
 
				         tokenizer = self.get_tokenizer_group()
			
 
				-        return tokenizer.encode(
			
 
				-            request_id=request_id, prompt=prompt, lora_request=lora_request
			
 
				-        )
			
 
				+
			
 
				+        return tokenizer.encode(request_id=request_id,
			
 
				+                                prompt=prompt,
			
 
				+                                lora_request=lora_request)
			
 
				 
			
 
				     async def _tokenize_prompt_async(
			
 
				         self,
			
@@ -188,83 +198,93 @@ class InputPreprocessor:
 
				     ) -> List[int]:
			
 
				         """Async version of :meth:`_tokenize_prompt`."""
			
 
				         tokenizer = self.get_tokenizer_group()
			
 
				-        return await tokenizer.encode_async(
			
 
				-            request_id=request_id, prompt=prompt, lora_request=lora_request
			
 
				-        )
			
 
				+
			
 
				+        return await tokenizer.encode_async(request_id=request_id,
			
 
				+                                            prompt=prompt,
			
 
				+                                            lora_request=lora_request)
			
 
				 
			
 
				     def _extract_prompt_components(
			
 
				         self,
			
 
				-        inputs: SingletonPromptInputs,
			
 
				+        prompt: SingletonPrompt,
			
 
				         request_id: str,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
 
				     ) -> PromptComponents:
			
 
				-        """
			
 
				+        '''
			
 
				         Extract the components of any single encoder or decoder input prompt.
			
 
				+
			
 
				         Arguments:
			
 
				+
			
 
				         * request_id
			
 
				-        * inputs: single encoder or decoder input prompt
			
 
				+        * prompt: single encoder or decoder input prompt
			
 
				         * lora_request: this is only valid for decoder prompts
			
 
				+
			
 
				         Returns:
			
 
				+
			
 
				         * prompt
			
 
				         * prompt_token_ids
			
 
				         * multi_modal_data
			
 
				-        """
			
 
				-        parsed = parse_singleton_prompt(inputs)
			
 
				+        '''
			
 
				+
			
 
				+        parsed = parse_singleton_prompt(prompt)
			
 
				+
			
 
				         if parsed["type"] == "str":
			
 
				-            prompt = parsed["content"]
			
 
				+            prompt_text = parsed["content"]
			
 
				             prompt_token_ids = self._tokenize_prompt(
			
 
				-                prompt,
			
 
				+                prompt_text,
			
 
				                 request_id=request_id,
			
 
				                 lora_request=lora_request,
			
 
				             )
			
 
				             multi_modal_data = None
			
 
				         elif parsed["type"] == "tokens":
			
 
				-            prompt = None
			
 
				+            prompt_text = None
			
 
				             prompt_token_ids = parsed["content"]["prompt_token_ids"]
			
 
				             multi_modal_data = parsed["content"].get("multi_modal_data")
			
 
				         elif parsed["type"] == "text":
			
 
				-            prompt = parsed["content"]["prompt"]
			
 
				+            prompt_text = parsed["content"]["prompt"]
			
 
				             prompt_token_ids = self._tokenize_prompt(
			
 
				-                prompt,
			
 
				+                prompt_text,
			
 
				                 request_id=request_id,
			
 
				                 lora_request=lora_request,
			
 
				             )
			
 
				             multi_modal_data = parsed["content"].get("multi_modal_data")
			
 
				         else:
			
 
				             assert_never(parsed)
			
 
				-        return prompt, prompt_token_ids, multi_modal_data
			
 
				+
			
 
				+        return prompt_text, prompt_token_ids, multi_modal_data
			
 
				 
			
 
				     async def _extract_prompt_components_async(
			
 
				         self,
			
 
				-        inputs: SingletonPromptInputs,
			
 
				+        prompt: SingletonPrompt,
			
 
				         request_id: str,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
 
				     ) -> PromptComponents:
			
 
				         """Async version of :meth:`_extract_prompt_components`."""
			
 
				-        parsed = parse_singleton_prompt(inputs)
			
 
				+        parsed = parse_singleton_prompt(prompt)
			
 
				+
			
 
				         if parsed["type"] == "str":
			
 
				-            prompt = parsed["content"]
			
 
				+            prompt_text = parsed["content"]
			
 
				             prompt_token_ids = await self._tokenize_prompt_async(
			
 
				-                prompt,
			
 
				+                prompt_text,
			
 
				                 request_id=request_id,
			
 
				                 lora_request=lora_request,
			
 
				             )
			
 
				             multi_modal_data = None
			
 
				         elif parsed["type"] == "tokens":
			
 
				-            prompt = None
			
 
				+            prompt_text = None
			
 
				             prompt_token_ids = parsed["content"]["prompt_token_ids"]
			
 
				             multi_modal_data = parsed["content"].get("multi_modal_data")
			
 
				         elif parsed["type"] == "text":
			
 
				-            prompt = parsed["content"]["prompt"]
			
 
				+            prompt_text = parsed["content"]["prompt"]
			
 
				             prompt_token_ids = await self._tokenize_prompt_async(
			
 
				-                prompt,
			
 
				+                prompt_text,
			
 
				                 request_id=request_id,
			
 
				                 lora_request=lora_request,
			
 
				             )
			
 
				             multi_modal_data = parsed["content"].get("multi_modal_data")
			
 
				         else:
			
 
				             assert_never(parsed)
			
 
				-        return prompt, prompt_token_ids, multi_modal_data
			
 
				+
			
 
				+        return prompt_text, prompt_token_ids, multi_modal_data
			
 
				 
			
 
				     def _build_enc_dec_llm_inputs(
			
 
				         self,
			
@@ -273,13 +293,14 @@ class InputPreprocessor:
 
				     ) -> EncoderDecoderLLMInputs:
			
 
				         encoder_prompt, encoder_prompt_ids, encoder_mm_data = encoder_comps
			
 
				         decoder_prompt, decoder_prompt_ids, decoder_mm_data = decoder_comps
			
 
				+
			
 
				         if encoder_mm_data is not None or decoder_mm_data is not None:
			
 
				-            raise ValueError(
			
 
				-                "Multi-modal encoder-decoder models are " "not supported yet"
			
 
				-            )
			
 
				-        decoder_prompt_ids = self._prepare_decoder_input_ids_for_generation(
			
 
				-            decoder_prompt_ids
			
 
				-        )
			
 
				+            raise ValueError("Multi-modal encoder-decoder models are "
			
 
				+                             "not supported yet")
			
 
				+
			
 
				+        decoder_prompt_ids = (
			
 
				+            self._prepare_decoder_input_ids_for_generation(decoder_prompt_ids))
			
 
				+
			
 
				         return EncoderDecoderLLMInputs(
			
 
				             prompt_token_ids=decoder_prompt_ids,
			
 
				             prompt=decoder_prompt,
			
@@ -289,43 +310,52 @@ class InputPreprocessor:
 
				 
			
 
				     def _process_encoder_decoder_prompt(
			
 
				         self,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         request_id: str,
			
 
				     ) -> EncoderDecoderLLMInputs:
			
 
				-        """
			
 
				+        '''
			
 
				         For encoder/decoder models only:
			
 
				         Process an input prompt into an
			
 
				         :class:`EncoderDecoderLLMInputs` instance.
			
 
				+
			
 
				         There are two types of input prompts:
			
 
				         singleton prompts which carry only the
			
 
				         encoder prompt, and explicit encoder/decoder
			
 
				         prompts which carry both the encoder and the
			
 
				         decoder prompts as member variables.
			
 
				+
			
 
				         This function handles the following scenarios:
			
 
				         * Singleton encoder prompt: extract encoder prompt
			
 
				           token ids & infer default decoder prompt token ids
			
 
				         * Explicit encoder/decoder prompt: extract encoder
			
 
				           and decoder prompt token ids
			
 
				+
			
 
				         Note that for Explicit encoder/decoder prompts,
			
 
				         each sub-prompt (encoder or decoder prompt) can
			
 
				         have any possible singleton type; thus this
			
 
				         method relies on helper functions to obtain
			
 
				         token ids for the sub-prompts.
			
 
				-
			
 
				+        
			
 
				         Arguments:
			
 
				-        * inputs: an input prompt
			
 
				+
			
 
				+        * prompt: an input prompt
			
 
				         * request_id
			
 
				+
			
 
				         Returns:
			
 
				+
			
 
				         * :class:`EncoderDecoderLLMInputs` instance
			
 
				-        """
			
 
				+        '''
			
 
				+
			
 
				         encoder_comps: PromptComponents
			
 
				         decoder_comps: DecoderPromptComponents
			
 
				-        if is_explicit_encoder_decoder_prompt(inputs):
			
 
				+
			
 
				+        if is_explicit_encoder_decoder_prompt(prompt):
			
 
				             encoder_comps = self._extract_prompt_components(
			
 
				-                inputs["encoder_prompt"],
			
 
				+                prompt["encoder_prompt"],
			
 
				                 request_id=request_id,
			
 
				             )
			
 
				-            if (decoder_input := inputs["decoder_prompt"]) is None:
			
 
				+
			
 
				+            if (decoder_input := prompt["decoder_prompt"]) is None:
			
 
				                 decoder_comps = None, None, None
			
 
				             else:
			
 
				                 decoder_comps = self._extract_prompt_components(
			
@@ -334,26 +364,30 @@ class InputPreprocessor:
 
				                 )
			
 
				         else:
			
 
				             encoder_comps = self._extract_prompt_components(
			
 
				-                inputs,
			
 
				+                prompt,
			
 
				                 request_id=request_id,
			
 
				             )
			
 
				+
			
 
				             decoder_comps = None, None, None
			
 
				+
			
 
				         return self._build_enc_dec_llm_inputs(encoder_comps, decoder_comps)
			
 
				 
			
 
				     async def _process_encoder_decoder_prompt_async(
			
 
				         self,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         request_id: str,
			
 
				     ) -> EncoderDecoderLLMInputs:
			
 
				         """Async version of :meth:`_process_encoder_decoder_prompt`."""
			
 
				         encoder_comps: PromptComponents
			
 
				         decoder_comps: DecoderPromptComponents
			
 
				-        if is_explicit_encoder_decoder_prompt(inputs):
			
 
				+
			
 
				+        if is_explicit_encoder_decoder_prompt(prompt):
			
 
				             encoder_task = self._extract_prompt_components_async(
			
 
				-                inputs["encoder_prompt"],
			
 
				+                prompt["encoder_prompt"],
			
 
				                 request_id=request_id,
			
 
				             )
			
 
				-            if (decoder_input := inputs["decoder_prompt"]) is None:
			
 
				+
			
 
				+            if (decoder_input := prompt["decoder_prompt"]) is None:
			
 
				                 encoder_comps = await encoder_task
			
 
				                 decoder_comps = None, None, None
			
 
				             else:
			
@@ -361,15 +395,17 @@ class InputPreprocessor:
 
				                     decoder_input,
			
 
				                     request_id=request_id,
			
 
				                 )
			
 
				+
			
 
				                 encoder_comps, decoder_comps = await asyncio.gather(
			
 
				-                    encoder_task, decoder_task
			
 
				-                )
			
 
				+                    encoder_task, decoder_task)
			
 
				         else:
			
 
				             encoder_comps = await self._extract_prompt_components_async(
			
 
				-                inputs,
			
 
				+                prompt,
			
 
				                 request_id=request_id,
			
 
				             )
			
 
				+
			
 
				             decoder_comps = None, None, None
			
 
				+
			
 
				         return self._build_enc_dec_llm_inputs(encoder_comps, decoder_comps)
			
 
				 
			
 
				     def _build_decoder_only_llm_inputs(
			
@@ -378,38 +414,43 @@ class InputPreprocessor:
 
				         prompt_adapter_request: Optional[PromptAdapterRequest],
			
 
				     ) -> LLMInputs:
			
 
				         prompt, prompt_token_ids, multi_modal_data = prompt_comps
			
 
				+
			
 
				         prompt_token_ids = self._apply_prompt_adapter(
			
 
				-            prompt_token_ids, prompt_adapter_request=prompt_adapter_request
			
 
				-        )
			
 
				-        return LLMInputs(
			
 
				-            prompt_token_ids=prompt_token_ids,
			
 
				-            prompt=prompt,
			
 
				-            multi_modal_data=multi_modal_data,
			
 
				-        )
			
 
				+            prompt_token_ids, prompt_adapter_request=prompt_adapter_request)
			
 
				+
			
 
				+        return LLMInputs(prompt_token_ids=prompt_token_ids,
			
 
				+                         prompt=prompt,
			
 
				+                         multi_modal_data=multi_modal_data)
			
 
				 
			
 
				     def _process_decoder_only_prompt(
			
 
				         self,
			
 
				-        inputs: SingletonPromptInputs,
			
 
				+        prompt: SingletonPrompt,
			
 
				         request_id: str,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
 
				         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
			
 
				     ) -> LLMInputs:
			
 
				-        """
			
 
				+        '''
			
 
				         For decoder-only models:
			
 
				         Process an input prompt into an :class:`LLMInputs` instance.
			
 
				+
			
 
				         Arguments:
			
 
				-        * inputs: input prompt
			
 
				+
			
 
				+        * prompt: input prompt
			
 
				         * request_id
			
 
				         * lora_request
			
 
				         * prompt_adapter_request
			
 
				+
			
 
				         Returns:
			
 
				+
			
 
				         * :class:`LLMInputs` instance
			
 
				-        """
			
 
				+        '''
			
 
				+
			
 
				         prompt_comps = self._extract_prompt_components(
			
 
				-            inputs,
			
 
				+            prompt,
			
 
				             request_id=request_id,
			
 
				             lora_request=lora_request,
			
 
				         )
			
 
				+
			
 
				         return self._build_decoder_only_llm_inputs(
			
 
				             prompt_comps,
			
 
				             prompt_adapter_request=prompt_adapter_request,
			
@@ -417,17 +458,18 @@ class InputPreprocessor:
 
				 
			
 
				     async def _process_decoder_only_prompt_async(
			
 
				         self,
			
 
				-        inputs: SingletonPromptInputs,
			
 
				+        prompt: SingletonPrompt,
			
 
				         request_id: str,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
 
				         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
			
 
				     ) -> LLMInputs:
			
 
				         """Async version of :meth:`_process_decoder_only_prompt`."""
			
 
				         prompt_comps = await self._extract_prompt_components_async(
			
 
				-            inputs,
			
 
				+            prompt,
			
 
				             request_id=request_id,
			
 
				             lora_request=lora_request,
			
 
				         )
			
 
				+
			
 
				         return self._build_decoder_only_llm_inputs(
			
 
				             prompt_comps,
			
 
				             prompt_adapter_request=prompt_adapter_request,
			
@@ -435,7 +477,7 @@ class InputPreprocessor:
 
				 
			
 
				     def preprocess(
			
 
				         self,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         request_id: str,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
 
				         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
			
@@ -445,16 +487,17 @@ class InputPreprocessor:
 
				             # Encoder-decoder model requires special mapping of
			
 
				             # input prompts to encoder & decoder
			
 
				             return self._process_encoder_decoder_prompt(
			
 
				-                inputs,
			
 
				+                prompt,
			
 
				                 request_id=request_id,
			
 
				             )
			
 
				-        if is_explicit_encoder_decoder_prompt(inputs):
			
 
				-            raise ValueError(
			
 
				-                "Cannot pass encoder-decoder prompt " "to decoder-only models"
			
 
				-            )
			
 
				+
			
 
				+        if is_explicit_encoder_decoder_prompt(prompt):
			
 
				+            raise ValueError("Cannot pass encoder-decoder prompt "
			
 
				+                             "to decoder-only models")
			
 
				+
			
 
				         # Decoder-only operation
			
 
				         return self._process_decoder_only_prompt(
			
 
				-            inputs,
			
 
				+            prompt,
			
 
				             request_id=request_id,
			
 
				             lora_request=lora_request,
			
 
				             prompt_adapter_request=prompt_adapter_request,
			
@@ -462,7 +505,7 @@ class InputPreprocessor:
 
				 
			
 
				     async def preprocess_async(
			
 
				         self,
			
 
				-        inputs: PromptInputs,
			
 
				+        prompt: PromptType,
			
 
				         request_id: str,
			
 
				         lora_request: Optional[LoRARequest] = None,
			
 
				         prompt_adapter_request: Optional[PromptAdapterRequest] = None,
			
@@ -472,16 +515,17 @@ class InputPreprocessor:
 
				             # Encoder-decoder model requires special mapping of
			
 
				             # input prompts to encoder & decoder
			
 
				             return await self._process_encoder_decoder_prompt_async(
			
 
				-                inputs,
			
 
				+                prompt,
			
 
				                 request_id=request_id,
			
 
				             )
			
 
				-        if is_explicit_encoder_decoder_prompt(inputs):
			
 
				-            raise ValueError(
			
 
				-                "Cannot pass encoder-decoder prompt " "to decoder-only models"
			
 
				-            )
			
 
				+
			
 
				+        if is_explicit_encoder_decoder_prompt(prompt):
			
 
				+            raise ValueError("Cannot pass encoder-decoder prompt "
			
 
				+                             "to decoder-only models")
			
 
				+
			
 
				         # Decoder-only operation
			
 
				         return await self._process_decoder_only_prompt_async(
			
 
				-            inputs,
			
 
				+            prompt,
			
 
				             request_id=request_id,
			
 
				             lora_request=lora_request,
			
 
				             prompt_adapter_request=prompt_adapter_request,
			
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -46,8 +46,8 @@ ignore = [
 
				 ]
			
 
				 
			
 
				 [tool.codespell]
			
 
				-ignore-words-list = "dout, te, indicies, ist, subtile, wit, whit, beseige, devlop, serie, vor, holliday, discus, tennant, carin, parma, mor, slac, revered, chanel, sammon, nast, shepard, insead, bloc, clea"
			
 
				-skip = "./tests/,./aphrodite/endpoints/kobold/klite.embd,./kernels/,./tests/benchmarks/sonnet.txt,./docs/,./tests/lora/data/long_context_test_data.py"
			
 
				+ignore-words-list = "dout, te, indicies, ist, subtile, wit, whit, beseige, devlop, serie, vor, holliday, discus, tennant, carin, parma, mor, slac, revered, chanel, sammon, nast, shepard, insead, bloc, clea, appy, ser, fter"
			
 
				+skip = "./tests/,./aphrodite/endpoints/kobold/klite.embd,./kernels/,./tests/benchmarks/sonnet.txt,./docs/,./tests/lora/data/long_context_test_data.py,./tests/models/fixtures/"
			
 
				 
			
 
				 [tool.isort]
			
 
				 use_parentheses = true
			
--- a/tests/benchmarks/engine/latency.py
+++ b/tests/benchmarks/engine/latency.py
@@ -12,7 +12,7 @@ from tqdm import tqdm
 
				 from aphrodite import LLM, SamplingParams
			
 
				 from aphrodite.common.utils import FlexibleArgumentParser
			
 
				 from aphrodite.engine.args_tools import DEVICE_OPTIONS, EngineArgs
			
 
				-from aphrodite.inputs import PromptInputs
			
 
				+from aphrodite.inputs import PromptType
			
 
				 from aphrodite.quantization import QUANTIZATION_METHODS
			
 
				 
			
 
				 
			
@@ -27,8 +27,6 @@ def main(args: argparse.Namespace):
 
				         num_speculative_tokens=args.num_speculative_tokens,
			
 
				         speculative_draft_tensor_parallel_size=\
			
 
				             args.speculative_draft_tensor_parallel_size,
			
 
				-        ngram_prompt_lookup_max=args.ngram_prompt_lookup_max,
			
 
				-        ngram_prompt_lookup_min=args.ngram_prompt_lookup_min,
			
 
				         tokenizer=args.tokenizer,
			
 
				         quantization=args.quantization,
			
 
				         tensor_parallel_size=args.tensor_parallel_size,
			
@@ -62,7 +60,7 @@ def main(args: argparse.Namespace):
 
				     dummy_prompt_token_ids = np.random.randint(10000,
			
 
				                                                size=(args.batch_size,
			
 
				                                                      args.input_len))
			
 
				-    dummy_inputs: List[PromptInputs] = [{
			
 
				+    dummy_prompts: List[PromptType] = [{
			
 
				         "prompt_token_ids": batch
			
 
				     } for batch in dummy_prompt_token_ids.tolist()]
			
 
				 
			
@@ -75,13 +73,13 @@ def main(args: argparse.Namespace):
 
				                     ],
			
 
				                     on_trace_ready=torch.profiler.tensorboard_trace_handler(
			
 
				                         str(profile_dir))) as p:
			
 
				-                llm.generate(dummy_inputs,
			
 
				+                llm.generate(dummy_prompts,
			
 
				                              sampling_params=sampling_params,
			
 
				                              use_tqdm=False)
			
 
				             print(p.key_averages())
			
 
				         else:
			
 
				             start_time = time.perf_counter()
			
 
				-            llm.generate(dummy_inputs,
			
 
				+            llm.generate(dummy_prompts,
			
 
				                          sampling_params=sampling_params,
			
 
				                          use_tqdm=False)
			
 
				             end_time = time.perf_counter()
			
@@ -135,8 +133,6 @@ if __name__ == '__main__':
 
				                         '-spec-draft-tp',
			
 
				                         type=int,
			
 
				                         default=None)
			
 
				-    parser.add_argument('--ngram-prompt-lookup-max', type=int, default=None)
			
 
				-    parser.add_argument('--ngram-prompt-lookup-min', type=int, default=None)
			
 
				     parser.add_argument('--tokenizer', type=str, default=None)
			
 
				     parser.add_argument('--quantization',
			
 
				                         '-q',
			
@@ -208,13 +204,11 @@ if __name__ == '__main__':
 
				         default=None,
			
 
				         help=('path to save the pytorch profiler output. Can be visualized '
			
 
				               'with ui.perfetto.dev or Tensorboard.'))
			
 
				-    parser.add_argument(
			
 
				-        "--device",
			
 
				-        type=str,
			
 
				-        default="auto",
			
 
				-        choices=DEVICE_OPTIONS,
			
 
				-        help='device type for Aphrodite execution, supporting CUDA, OpenVINO '
			
 
				-        'and CPU.')
			
 
				+    parser.add_argument("--device",
			
 
				+                        type=str,
			
 
				+                        default="auto",
			
 
				+                        choices=DEVICE_OPTIONS,
			
 
				+                        help='device type for vLLM execution')
			
 
				     parser.add_argument('--block-size',
			
 
				                         type=int,
			
 
				                         default=16,
			
--- a/tests/models/decoder_only/audio_language/test_ultravox.py
+++ b/tests/models/decoder_only/audio_language/test_ultravox.py
@@ -164,7 +164,8 @@ def run_multi_audio_test(
 
				 def test_models(hf_runner, aphrodite_runner, audio, dtype: str, max_tokens: int,
			
 
				                 num_logprobs: int) -> None:
			
 
				 
			
 
				-    aphrodite_prompt = _get_prompt(1, "Describe the audio above.", APHRODITE_PLACEHOLDER)
			
 
				+    aphrodite_prompt = _get_prompt(
			
 
				+        1, "Describe the audio above.", APHRODITE_PLACEHOLDER)
			
 
				     hf_prompt = _get_prompt(1, "Describe the audio above.", HF_PLACEHOLDER)
			
 
				     run_test(
			
 
				         hf_runner,
			
--- a/tests/models/decoder_only/language/test_aqlm.py
+++ b/tests/models/decoder_only/language/test_aqlm.py
@@ -59,7 +59,8 @@ def test_models(
 
				 
			
 
				     # loop through the prompts to compare against the ground truth generations
			
 
				     for prompt_idx in range(len(example_prompts)):
			
 
				-        aphrodite_output_ids, aphrodite_output_str, aphrodite_logprobs = aphrodite_outputs[
			
 
				+        (aphrodite_output_ids, aphrodite_output_str,
			
 
				+        aphrodite_logprobs) = aphrodite_outputs[
			
 
				             prompt_idx]
			
 
				 
			
 
				         print("Prompt:          ", repr(example_prompts[prompt_idx]))
			
--- a/tests/models/decoder_only/language/test_big_models.py
+++ b/tests/models/decoder_only/language/test_big_models.py
@@ -42,8 +42,10 @@ def test_models(
 
				     with hf_runner(model, dtype=dtype) as hf_model:
			
 
				         hf_outputs = hf_model.generate_greedy(example_prompts, max_tokens)
			
 
				 
			
 
				-    with aphrodite_runner(model, dtype=dtype, enforce_eager=True) as aphrodite_model:
			
 
				-        aphrodite_outputs = aphrodite_model.generate_greedy(example_prompts, max_tokens)
			
 
				+    with aphrodite_runner(model, dtype=dtype,
			
 
				+                          enforce_eager=True) as aphrodite_model:
			
 
				+        aphrodite_outputs = aphrodite_model.generate_greedy(
			
 
				+            example_prompts, max_tokens)
			
 
				 
			
 
				     check_outputs_equal(
			
 
				         outputs_0_lst=hf_outputs,
			
@@ -60,7 +62,8 @@ def test_model_print(
 
				     model: str,
			
 
				     dtype: str,
			
 
				 ) -> None:
			
 
				-    with aphrodite_runner(model, dtype=dtype, enforce_eager=True) as aphrodite_model:
			
 
				+    with aphrodite_runner(
			
 
				+        model, dtype=dtype, enforce_eager=True) as aphrodite_model:
			
 
				         # This test is for verifying whether the model's extra_repr
			
 
				         # can be printed correctly.
			
 
				         print(aphrodite_model.model.llm_engine.model_executor.driver_worker.
			
--- a/tests/models/decoder_only/language/test_danube3_4b.py
+++ b/tests/models/decoder_only/language/test_danube3_4b.py
@@ -28,7 +28,8 @@ def test_models(
 
				         hf_outputs = hf_model.generate_greedy(example_prompts, max_tokens)
			
 
				 
			
 
				     with aphrodite_runner(model, dtype=dtype) as aphrodite_model:
			
 
				-        aphrodite_outputs = aphrodite_model.generate_greedy(example_prompts, max_tokens)
			
 
				+        aphrodite_outputs = aphrodite_model.generate_greedy(
			
 
				+            example_prompts, max_tokens)
			
 
				 
			
 
				     check_outputs_equal(
			
 
				         outputs_0_lst=hf_outputs,
			
--- a/tests/models/decoder_only/language/test_granite.py
+++ b/tests/models/decoder_only/language/test_granite.py
@@ -1,4 +1,5 @@
 
				-"""Compare the outputs of HF and Aphrodite for Granite models using greedy sampling.
			
 
				+"""Compare the outputs of HF and Aphrodite for Granite models using greedy
			
 
				+sampling.
			
 
				 
			
 
				 Run `pytest tests/models/test_granite.py`.
			
 
				 """
			
--- a/tests/models/decoder_only/language/test_jamba.py
+++ b/tests/models/decoder_only/language/test_jamba.py
@@ -26,15 +26,18 @@ def test_models(
 
				         hf_outputs = hf_model.generate_greedy(example_prompts, max_tokens)
			
 
				 
			
 
				     with aphrodite_runner(model, dtype=dtype) as aphrodite_model:
			
 
				-        aphrodite_outputs = aphrodite_model.generate_greedy(example_prompts, max_tokens)
			
 
				+        aphrodite_outputs = aphrodite_model.generate_greedy(
			
 
				+            example_prompts, max_tokens)
			
 
				 
			
 
				     for i in range(len(example_prompts)):
			
 
				         hf_output_ids, hf_output_str = hf_outputs[i]
			
 
				         aphrodite_output_ids, aphrodite_output_str = aphrodite_outputs[i]
			
 
				         assert hf_output_str == aphrodite_output_str, (
			
 
				-            f"Test{i}:\nHF: {hf_output_str!r}\nAPHRODITE: {aphrodite_output_str!r}")
			
 
				+            f"Test{i}:\nHF: {hf_output_str!r}\nAPHRODITE: "
			
 
				+            f"{aphrodite_output_str!r}")
			
 
				         assert hf_output_ids == aphrodite_output_ids, (
			
 
				-            f"Test{i}:\nHF: {hf_output_ids}\nAPHRODITE: {aphrodite_output_ids}")
			
 
				+            f"Test{i}:\nHF: {hf_output_ids}\nAPHRODITE: "
			
 
				+            f"{aphrodite_output_ids}")
			
 
				 
			
 
				 
			
 
				 @pytest.mark.parametrize("model", MODELS)
			
@@ -113,7 +116,8 @@ def test_models_preemption_recompute(
 
				 
			
 
				         aphrodite_model.model.llm_engine.scheduler[
			
 
				             0].ENABLE_ARTIFICIAL_PREEMPT = False
			
 
				-        aphrodite_outputs = aphrodite_model.generate_greedy(example_prompts, max_tokens)
			
 
				+        aphrodite_outputs = aphrodite_model.generate_greedy(
			
 
				+            example_prompts, max_tokens)
			
 
				 
			
 
				     check_outputs_equal(
			
 
				         outputs_0_lst=preempt_aphrodite_outputs,
			
@@ -138,7 +142,11 @@ def test_fail_upon_inc_requests_and_finished_requests_lt_available_blocks(
 
				     # statelessness mechanism where it can cleanup new incoming requests in
			
 
				     # a single step.
			
 
				     try:
			
 
				-        with aphrodite_runner(model, dtype=dtype, max_num_seqs=10) as aphrodite_model:
			
 
				+        with aphrodite_runner(
			
 
				+            model,
			
 
				+            dtype=dtype,
			
 
				+            max_num_seqs=10,
			
 
				+        ) as aphrodite_model:
			
 
				             aphrodite_model.generate_greedy([example_prompts[0]] * 100, 10)
			
 
				     except ValueError:
			
 
				         pytest.fail("Jamba inner state wasn't cleaned up properly between"
			
--- a/tests/models/decoder_only/language/test_models.py
+++ b/tests/models/decoder_only/language/test_models.py
@@ -41,7 +41,8 @@ def test_models(
 
				         hf_outputs = hf_model.generate_greedy(example_prompts, max_tokens)
			
 
				 
			
 
				     with aphrodite_runner(model, dtype=dtype) as aphrodite_model:
			
 
				-        aphrodite_outputs = aphrodite_model.generate_greedy(example_prompts, max_tokens)
			
 
				+        aphrodite_outputs = aphrodite_model.generate_greedy(
			
 
				+            example_prompts, max_tokens)
			
 
				 
			
 
				     check_outputs_equal(
			
 
				         outputs_0_lst=hf_outputs,
			
--- a/tests/models/decoder_only/vision_language/test_blip2.py
+++ b/tests/models/decoder_only/vision_language/test_blip2.py
@@ -3,8 +3,8 @@ from typing import List, Optional, Tuple
 
				 import pytest
			
 
				 from transformers import AutoModelForVision2Seq, AutoTokenizer
			
 
				 
			
 
				-from aphrodite.multimodal.utils import rescale_image_size
			
 
				 from aphrodite.common.sequence import SampleLogprobs
			
 
				+from aphrodite.multimodal.utils import rescale_image_size
			
 
				 
			
 
				 from ....conftest import IMAGE_ASSETS
			
 
				 from ...utils import check_logprobs_close
			
@@ -69,7 +69,11 @@ def test_models(hf_runner, aphrodite_runner, image_assets, model, size_factors,
 
				     ) for image, prompt in zip(images, HF_IMAGE_PROMPTS)]
			
 
				 
			
 
				     # max_model_len should be greater than image_feature_size
			
 
				-    with aphrodite_runner(model, dtype=dtype, enforce_eager=True) as aphrodite_model:
			
 
				+    with aphrodite_runner(
			
 
				+        model,
			
 
				+        dtype=dtype,
			
 
				+        enforce_eager=True,
			
 
				+    ) as aphrodite_model:
			
 
				         aphrodite_outputs_per_image = [
			
 
				             aphrodite_model.generate_greedy_logprobs(prompts,
			
 
				                                                 max_tokens,
			
--- a/tests/models/decoder_only/vision_language/test_chameleon.py
+++ b/tests/models/decoder_only/vision_language/test_chameleon.py
@@ -3,10 +3,10 @@ from typing import List, Optional, Type
 
				 import pytest
			
 
				 from transformers import AutoModelForVision2Seq, BatchEncoding
			
 
				 
			
 
				-from aphrodite.multimodal.utils import rescale_image_size
			
 
				 from aphrodite.common.utils import STR_DTYPE_TO_TORCH_DTYPE
			
 
				+from aphrodite.multimodal.utils import rescale_image_size
			
 
				 
			
 
				-from ....conftest import IMAGE_ASSETS, HfRunner, AphroditeRunner, _ImageAssets
			
 
				+from ....conftest import IMAGE_ASSETS, AphroditeRunner, HfRunner, _ImageAssets
			
 
				 from ...utils import check_outputs_equal
			
 
				 
			
 
				 HF_IMAGE_PROMPTS = IMAGE_ASSETS.prompts({
			
@@ -83,8 +83,8 @@ def run_test(
 
				 
			
 
				     for hf_outputs, aphrodite_outputs in zip(hf_outputs_per_image,
			
 
				                                         aphrodite_outputs_per_image):
			
 
				-        # HF Logprobs include image tokens, unlike Aphrodite, so we don't directly
			
 
				-        # compare them
			
 
				+        # HF Logprobs include image tokens, unlike Aphrodite, so we don't
			
 
				+        # directly compare them
			
 
				         check_outputs_equal(
			
 
				             outputs_0_lst=[outputs[:2] for outputs in hf_outputs],
			
 
				             outputs_1_lst=[outputs[:2] for outputs in aphrodite_outputs],
			
--- a/tests/models/decoder_only/vision_language/test_fuyu.py
+++ b/tests/models/decoder_only/vision_language/test_fuyu.py
@@ -2,11 +2,11 @@ from typing import List, Optional, Tuple, Type
 
				 
			
 
				 import pytest
			
 
				 
			
 
				-from aphrodite.multimodal.utils import rescale_image_size
			
 
				 from aphrodite.common.sequence import SampleLogprobs
			
 
				 from aphrodite.common.utils import is_cpu
			
 
				+from aphrodite.multimodal.utils import rescale_image_size
			
 
				 
			
 
				-from ....conftest import IMAGE_ASSETS, HfRunner, AphroditeRunner, _ImageAssets
			
 
				+from ....conftest import IMAGE_ASSETS, AphroditeRunner, HfRunner, _ImageAssets
			
 
				 from ...utils import check_logprobs_close
			
 
				 
			
 
				 HF_IMAGE_PROMPTS = IMAGE_ASSETS.prompts({
			
@@ -97,7 +97,8 @@ def run_test(
 
				         check_logprobs_close(
			
 
				             outputs_0_lst=hf_outputs,
			
 
				             outputs_1_lst=[
			
 
				-                aphrodite_to_hf_output(aphrodite_output) for aphrodite_output in aphrodite_outputs
			
 
				+                aphrodite_to_hf_output(
			
 
				+                    aphrodite_output) for aphrodite_output in aphrodite_outputs
			
 
				             ],
			
 
				             name_0="hf",
			
 
				             name_1="aphrodite",
			
--- a/tests/models/decoder_only/vision_language/test_internvl.py
+++ b/tests/models/decoder_only/vision_language/test_internvl.py
@@ -6,11 +6,11 @@ import torch
 
				 from PIL.Image import Image
			
 
				 from transformers import AutoConfig
			
 
				 
			
 
				+from aphrodite.common.utils import is_cpu
			
 
				 from aphrodite.multimodal.utils import rescale_image_size
			
 
				-from aphrodite.utils import is_cpu
			
 
				 
			
 
				-from ....conftest import (IMAGE_ASSETS, HfRunner, PromptImageInput, AphroditeRunner,
			
 
				-                          _ImageAssets)
			
 
				+from ....conftest import (IMAGE_ASSETS, AphroditeRunner, HfRunner,
			
 
				+                          PromptImageInput, _ImageAssets)
			
 
				 from ...utils import check_logprobs_close
			
 
				 
			
 
				 HF_IMAGE_PROMPTS = IMAGE_ASSETS.prompts({
			
--- a/tests/models/decoder_only/vision_language/test_llava.py
+++ b/tests/models/decoder_only/vision_language/test_llava.py
@@ -4,12 +4,12 @@ import pytest
 
				 from transformers import (AutoConfig, AutoModelForVision2Seq, AutoTokenizer,
			
 
				                           BatchEncoding)
			
 
				 
			
 
				+from aphrodite.common.sequence import SampleLogprobs
			
 
				+from aphrodite.common.utils import STR_DTYPE_TO_TORCH_DTYPE
			
 
				 from aphrodite.multimodal.utils import rescale_image_size
			
 
				-from aphrodite.sequence import SampleLogprobs
			
 
				-from aphrodite.utils import STR_DTYPE_TO_TORCH_DTYPE
			
 
				 
			
 
				-from ....conftest import (IMAGE_ASSETS, HfRunner, PromptImageInput, AphroditeRunner,
			
 
				-                          _ImageAssets)
			
 
				+from ....conftest import (IMAGE_ASSETS, AphroditeRunner, HfRunner,
			
 
				+                          PromptImageInput, _ImageAssets)
			
 
				 from ...utils import check_logprobs_close
			
 
				 
			
 
				 _LIMIT_IMAGE_PER_PROMPT = 4
			
--- a/tests/models/decoder_only/vision_language/test_llava_image_embeds.py
+++ b/tests/models/decoder_only/vision_language/test_llava_image_embeds.py
@@ -3,9 +3,9 @@ from typing import List, Optional, Tuple, Type
 
				 import pytest
			
 
				 from transformers import AutoConfig, AutoModelForVision2Seq, AutoTokenizer
			
 
				 
			
 
				-from aphrodite.sequence import SampleLogprobs
			
 
				+from aphrodite.common.sequence import SampleLogprobs
			
 
				 
			
 
				-from ....conftest import IMAGE_ASSETS, HfRunner, AphroditeRunner, _ImageAssets
			
 
				+from ....conftest import IMAGE_ASSETS, AphroditeRunner, HfRunner, _ImageAssets
			
 
				 from ...utils import check_logprobs_close
			
 
				 
			
 
				 HF_IMAGE_PROMPTS = IMAGE_ASSETS.prompts({
			
--- a/tests/models/decoder_only/vision_language/test_llava_next.py
+++ b/tests/models/decoder_only/vision_language/test_llava_next.py
@@ -223,8 +223,8 @@ def test_models(hf_runner, aphrodite_runner, image_assets, model, size_factors,
 
				 @pytest.mark.parametrize("dtype", ["half"])
			
 
				 @pytest.mark.parametrize("max_tokens", [128])
			
 
				 @pytest.mark.parametrize("num_logprobs", [5])
			
 
				-def test_models_fixed_sizes(hf_runner, aphrodite_runner, image_assets, model, sizes,
			
 
				-                            dtype, max_tokens, num_logprobs) -> None:
			
 
				+def test_models_fixed_sizes(hf_runner, aphrodite_runner, image_assets, model,
			
 
				+                            sizes, dtype, max_tokens, num_logprobs) -> None:
			
 
				     run_test(
			
 
				         hf_runner,
			
 
				         aphrodite_runner,
			
--- a/tests/models/decoder_only/vision_language/test_llava_next_video.py
+++ b/tests/models/decoder_only/vision_language/test_llava_next_video.py
@@ -4,11 +4,11 @@ import pytest
 
				 import transformers
			
 
				 from transformers import AutoConfig, AutoModelForVision2Seq, AutoTokenizer
			
 
				 
			
 
				+from aphrodite.common.sequence import SampleLogprobs
			
 
				 from aphrodite.multimodal.utils import (rescale_video_size, resize_video,
			
 
				-                                   sample_frames_from_video)
			
 
				-from aphrodite.sequence import SampleLogprobs
			
 
				+                                        sample_frames_from_video)
			
 
				 
			
 
				-from ....conftest import VIDEO_ASSETS, HfRunner, AphroditeRunner, _VideoAssets
			
 
				+from ....conftest import VIDEO_ASSETS, AphroditeRunner, HfRunner, _VideoAssets
			
 
				 from ...utils import check_logprobs_close
			
 
				 
			
 
				 _PREFACE = (
			
@@ -217,8 +217,8 @@ def test_models(hf_runner, aphrodite_runner, video_assets, model, size_factors,
 
				 @pytest.mark.parametrize("max_tokens", [128])
			
 
				 @pytest.mark.parametrize("num_logprobs", [5])
			
 
				 @pytest.mark.parametrize("num_frames", [16])
			
 
				-def test_models_fixed_sizes(hf_runner, aphrodite_runner, video_assets, model, sizes,
			
 
				-                            dtype, max_tokens, num_logprobs,
			
 
				+def test_models_fixed_sizes(hf_runner, aphrodite_runner, video_assets, model,
			
 
				+                            sizes, dtype, max_tokens, num_logprobs,
			
 
				                             num_frames) -> None:
			
 
				     run_test(
			
 
				         hf_runner,
			
--- a/tests/models/decoder_only/vision_language/test_minicpmv.py
+++ b/tests/models/decoder_only/vision_language/test_minicpmv.py
@@ -6,10 +6,10 @@ import torch.types
 
				 from PIL import Image
			
 
				 from transformers import BatchEncoding
			
 
				 
			
 
				+from aphrodite.common.sequence import SampleLogprobs
			
 
				 from aphrodite.multimodal.utils import rescale_image_size
			
 
				-from aphrodite.sequence import SampleLogprobs
			
 
				 
			
 
				-from ....conftest import IMAGE_ASSETS, HfRunner, AphroditeRunner
			
 
				+from ....conftest import IMAGE_ASSETS, AphroditeRunner, HfRunner
			
 
				 from ...utils import check_logprobs_close
			
 
				 
			
 
				 # The image token is placed before "user" on purpose so that the test can pass
			
--- a/tests/models/decoder_only/vision_language/test_paligemma.py
+++ b/tests/models/decoder_only/vision_language/test_paligemma.py
@@ -4,11 +4,11 @@ from typing import List, Optional, Tuple, Type
 
				 import pytest
			
 
				 from transformers import AutoConfig, AutoModelForVision2Seq, AutoTokenizer
			
 
				 
			
 
				+from aphrodite.common.sequence import SampleLogprobs
			
 
				+from aphrodite.common.utils import is_hip
			
 
				 from aphrodite.multimodal.utils import rescale_image_size
			
 
				-from aphrodite.sequence import SampleLogprobs
			
 
				-from aphrodite.utils import is_hip
			
 
				 
			
 
				-from ....conftest import IMAGE_ASSETS, HfRunner, AphroditeRunner, _ImageAssets
			
 
				+from ....conftest import IMAGE_ASSETS, AphroditeRunner, HfRunner, _ImageAssets
			
 
				 from ...utils import check_logprobs_close
			
 
				 
			
 
				 HF_IMAGE_PROMPTS = IMAGE_ASSETS.prompts({
			
@@ -24,7 +24,7 @@ models = ["google/paligemma-3b-mix-224"]
 
				 # excessive use of shared memory. Use other backends in the meantime.
			
 
				 # FIXME (mattwong, gshtrasb, hongxiayan)
			
 
				 if is_hip():
			
 
				-    os.environ["Aphrodite_USE_TRITON_FLASH_ATTN"] = "0"
			
 
				+    os.environ["APHRODITE_USE_TRITON_FLASH_ATTN"] = "0"
			
 
				 
			
 
				 
			
 
				 def aphrodite_to_hf_output(aphrodite_output: Tuple[List[int], str,
			
--- a/tests/models/decoder_only/vision_language/test_phi3v.py
+++ b/tests/models/decoder_only/vision_language/test_phi3v.py
@@ -5,11 +5,12 @@ from typing import List, Optional, Tuple, Type
 
				 import pytest
			
 
				 from transformers import AutoTokenizer
			
 
				 
			
 
				+from aphrodite.common.sequence import SampleLogprobs
			
 
				+from aphrodite.common.utils import is_cpu, is_hip
			
 
				 from aphrodite.multimodal.utils import rescale_image_size
			
 
				-from aphrodite.sequence import SampleLogprobs
			
 
				-from aphrodite.utils import is_cpu, is_hip
			
 
				 
			
 
				-from ....conftest import IMAGE_ASSETS, HfRunner, PromptImageInput, AphroditeRunner
			
 
				+from ....conftest import (IMAGE_ASSETS, AphroditeRunner, HfRunner,
			
 
				+                          PromptImageInput)
			
 
				 from ...utils import check_logprobs_close
			
 
				 
			
 
				 HF_IMAGE_PROMPTS = IMAGE_ASSETS.prompts({
			
--- a/tests/models/decoder_only/vision_language/test_pixtral.py
+++ b/tests/models/decoder_only/vision_language/test_pixtral.py
@@ -1,6 +1,7 @@
 
				-"""Compare the outputs of HF and Aphrodite for Mistral models using greedy sampling.
			
 
				+"""Compare the outputs of HF and Aphrodite for Mistral models using greedy
			
 
				+sampling.
			
 
				 
			
 
				-Run `pytest tests/models/test_mistral.py`.
			
 
				+Run `pytest tests/models/decoder_only/vision_language/test_pixtral.py`.
			
 
				 """
			
 
				 import json
			
 
				 import uuid
			
--- a/tests/models/embedding/language/test_embedding.py
+++ b/tests/models/embedding/language/test_embedding.py
@@ -1,6 +1,7 @@
 
				-"""Compare the outputs of HF and Aphrodite for Mistral models using greedy sampling.
			
 
				+"""Compare the outputs of HF and Aphrodite for Mistral models using greedy
			
 
				+sampling.
			
 
				 
			
 
				-Run `pytest tests/models/test_llama_embedding.py`.
			
 
				+Run `pytest tests/models/embedding/language/test_embedding.py`.
			
 
				 """
			
 
				 import pytest
			
 
				 import torch
			
--- a/tests/models/encoder_decoder/language/test_bart.py
+++ b/tests/models/encoder_decoder/language/test_bart.py
@@ -1,4 +1,5 @@
 
				-"""Compare the outputs of HF and Aphrodite for BART models using greedy sampling.
			
 
				+"""Compare the outputs of HF and Aphrodite for BART models using greedy
			
 
				+sampling.
			
 
				 
			
 
				 Run `pytest tests/models/encoder_decoder/language/test_bart.py`.
			
 
				 """
			
@@ -50,8 +51,8 @@ if not is_cpu():
 
				         distributed_executor_backend: Optional[str] = None,
			
 
				     ) -> None:
			
 
				         '''
			
 
				-        Test the Aphrodite BART model for a variety of encoder/decoder input prompts,
			
 
				-        by validating it against HuggingFace (HF) BART.
			
 
				+        Test the Aphrodite BART model for a variety of encoder/decoder input
			
 
				+        prompts, by validating it against HuggingFace (HF) BART.
			
 
				 
			
 
				         Arguments:
			
 
				 
			
@@ -87,20 +88,21 @@ if not is_cpu():
 
				           then (4) after computing logits during prefill, override the model
			
 
				           logits & force <BOS> to be the first generated token.
			
 
				         
			
 
				-        * Aphrodite will (1) tokenize the None prompt as [<BOS>], (2) append decoder-
			
 
				-          start-token to the beginning, yielding [<decoder-start-token><BOS>],
			
 
				-          (3) pass these tokens to the model & proceed with generation.
			
 
				+        * Aphrodite will (1) tokenize the None prompt as [<BOS>], (2) append
			
 
				+          <decoder-start-token> to the beginning, yielding
			
 
				+          [<decoder-start-token><BOS>], (3) pass these tokens to the model &
			
 
				+          proceed with generation.
			
 
				         
			
 
				-        The net effect is that compared to Aphrodite, the list of HF *decoded* tokens
			
 
				-        will contain one more initial <BOS> than the Aphrodite generated tokens,
			
 
				-        because Aphrodite's <BOS> token is injected into the prompt rather than into
			
 
				-        the generated output. This is in spite of the fact that overall, the
			
 
				-        complete sequences (prompt + decoded tokens) produced by Aphrodite will match
			
 
				-        HF.
			
 
				+        The net effect is that compared to Aphrodite, the list of HF *decoded*
			
 
				+        tokens will contain one more initial <BOS> than the Aphrodite generated
			
 
				+        tokens, because Aphrodite's <BOS> token is injected into the prompt
			
 
				+        rather than into the generated output. This is in spite of the fact
			
 
				+        that overall, the complete sequences (prompt + decoded tokens) produced
			
 
				+        by Aphrodite will match HF.
			
 
				         
			
 
				-        So when we use HF decoded token output to validate Aphrodite's decoded token
			
 
				-        output, the testing process must account for the difference in decoded
			
 
				-        token sequences between Aphrodite and HF specifically in the
			
 
				+        So when we use HF decoded token output to validate Aphrodite's decoded
			
 
				+        token output, the testing process must account for the difference in
			
 
				+        decoded token sequences between Aphrodite and HF specifically in the
			
 
				         decoder-prompt-is-None case. 
			
 
				         
			
 
				         One option is to disable the logit processor feature that forces the
			
@@ -126,19 +128,21 @@ if not is_cpu():
 
				         # for encoder/decoder models Aphrodite will
			
 
				         # default to enforce_eager=True if enforce_eager
			
 
				         # is left unspecified. However, the
			
 
				-        # AphroditeRunner test fixture (which wraps around the LLM class) defaults to
			
 
				-        # enforce_eager=False (a behavior which a number of already-exisitng
			
 
				-        # decoder-only unit tests expect), so when testing an encoder/decoder
			
 
				-        # model we must explicitly specify enforce_eager=True in the AphroditeRunner
			
 
				-        # constructor.
			
 
				+        # AphroditeRunner test fixture (which wraps around the LLM class)
			
 
				+        # defaults to enforce_eager=False (a behavior which a number of
			
 
				+        # already-exisitng decoder-only unit tests expect), so when testing
			
 
				+        # an encoder/decoder model we must explicitly specify enforce_eager=True
			
 
				+        # in the AphroditeRunner constructor.
			
 
				         with aphrodite_runner(
			
 
				                 model,
			
 
				                 dtype=dtype,
			
 
				                 tensor_parallel_size=tensor_parallel_size,
			
 
				                 distributed_executor_backend=distributed_executor_backend,
			
 
				                 enforce_eager=True) as aphrodite_model:
			
 
				-            aphrodite_outputs = aphrodite_model.generate_encoder_decoder_greedy_logprobs(
			
 
				-                prompts, max_tokens, num_logprobs)
			
 
				+            aphrodite_outputs = (
			
 
				+                aphrodite_model.generate_encoder_decoder_greedy_logprobs(
			
 
				+                    prompts, max_tokens, num_logprobs)
			
 
				+            )
			
 
				 
			
 
				         # Configuration settings for HF baseline
			
 
				         hf_kwargs = {
			
@@ -181,7 +185,8 @@ if not is_cpu():
 
				     @pytest.mark.parametrize("max_tokens", [64])
			
 
				     @pytest.mark.parametrize("num_logprobs", [5])
			
 
				     @pytest.mark.parametrize("decoder_prompt_type", list(DecoderPromptType))
			
 
				-    def test_models(hf_runner, aphrodite_runner, example_encoder_decoder_prompts,
			
 
				+    def test_models(hf_runner, aphrodite_runner,
			
 
				+                    example_encoder_decoder_prompts,
			
 
				                     model, dtype, max_tokens, num_logprobs,
			
 
				                     decoder_prompt_type) -> None:
			
 
				 
			
--- a/tests/mq_aphrodite_engine/__init__.py
+++ b/tests/mq_aphrodite_engine/__init__.py
--- a/tests/mq_aphrodite_engine/test_abort.py
+++ b/tests/mq_aphrodite_engine/test_abort.py
@@ -0,0 +1,68 @@
 
				+"""Test that aborting is handled properly."""
			
 
				+
			
 
				+import asyncio
			
 
				+import tempfile
			
 
				+import uuid
			
 
				+
			
 
				+import pytest
			
 
				+
			
 
				+from aphrodite.engine.args_tools import AsyncEngineArgs
			
 
				+from tests.mq_aphrodite_engine.utils import RemoteMQAphroditeEngine, generate
			
 
				+
			
 
				+MODEL = "google/gemma-1.1-2b-it"
			
 
				+ENGINE_ARGS = AsyncEngineArgs(model=MODEL)
			
 
				+RAISED_ERROR = KeyError
			
 
				+RAISED_VALUE = "foo"
			
 
				+EXPECTED_TOKENS = 250
			
 
				+
			
 
				+
			
 
				+@pytest.fixture(scope="function")
			
 
				+def tmp_socket():
			
 
				+    with tempfile.TemporaryDirectory() as td:
			
 
				+        yield f"ipc://{td}/{uuid.uuid4()}"
			
 
				+
			
 
				+
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_abort(tmp_socket):
			
 
				+    with RemoteMQAphroditeEngine(
			
 
				+        engine_args=ENGINE_ARGS,
			
 
				+        ipc_path=tmp_socket) as engine:
			
 
				+
			
 
				+        client = await engine.make_client()
			
 
				+
			
 
				+        request_id_to_be_aborted = "request-aborted"
			
 
				+        request_ids_a = [f"request-a-{idx}" for idx in range(10)]
			
 
				+        request_ids_b = [f"request-b-{idx}" for idx in range(10)]
			
 
				+
			
 
				+        # Requests started before one to be aborted.
			
 
				+        tasks = []
			
 
				+        for request_id in request_ids_a:
			
 
				+            tasks.append(
			
 
				+                asyncio.create_task(
			
 
				+                    generate(client, request_id, EXPECTED_TOKENS)))
			
 
				+
			
 
				+        # Aborted.
			
 
				+        task_aborted = asyncio.create_task(
			
 
				+            generate(client, request_id_to_be_aborted, EXPECTED_TOKENS))
			
 
				+
			
 
				+        # Requests started after one to be aborted.
			
 
				+        for request_id in request_ids_b:
			
 
				+            tasks.append(
			
 
				+                asyncio.create_task(
			
 
				+                    generate(client, request_id, EXPECTED_TOKENS)))
			
 
				+
			
 
				+        # Actually abort.
			
 
				+        await asyncio.sleep(0.5)
			
 
				+        await client.abort(request_id_to_be_aborted)
			
 
				+
			
 
				+        # Confirm that we got all the EXPECTED tokens from the requests.
			
 
				+        for task in tasks:
			
 
				+            count, request_id = await task
			
 
				+            assert count == EXPECTED_TOKENS, (
			
 
				+                f"{request_id} generated only {count} tokens")
			
 
				+
			
 
				+        # Cancel task (this will hang indefinitely if not).
			
 
				+        task_aborted.cancel()
			
 
				+
			
 
				+        # Shutdown.
			
 
				+        client.close()
			
--- a/tests/mq_aphrodite_engine/test_error_handling.py
+++ b/tests/mq_aphrodite_engine/test_error_handling.py
@@ -0,0 +1,243 @@
 
				+"""Test that various errors are handled properly."""
			
 
				+
			
 
				+import asyncio
			
 
				+import tempfile
			
 
				+import time
			
 
				+import uuid
			
 
				+from unittest.mock import Mock
			
 
				+
			
 
				+import pytest
			
 
				+
			
 
				+from aphrodite import SamplingParams
			
 
				+from aphrodite.common.utils import FlexibleArgumentParser
			
 
				+from aphrodite.endpoints.openai.api_server import build_engine_client
			
 
				+from aphrodite.endpoints.openai.args import make_arg_parser
			
 
				+from aphrodite.engine.aphrodite_engine import AphroditeEngine
			
 
				+from aphrodite.engine.args_tools import AsyncEngineArgs
			
 
				+from aphrodite.engine.multiprocessing import MQEngineDeadError
			
 
				+from aphrodite.engine.multiprocessing.engine import MQAphroditeEngine
			
 
				+from aphrodite.lora.request import LoRARequest
			
 
				+from tests.mq_aphrodite_engine.utils import RemoteMQAphroditeEngine
			
 
				+
			
 
				+MODEL = "google/gemma-1.1-2b-it"
			
 
				+ENGINE_ARGS = AsyncEngineArgs(model=MODEL)
			
 
				+RAISED_ERROR = KeyError
			
 
				+RAISED_VALUE = "foo"
			
 
				+
			
 
				+
			
 
				+@pytest.fixture(scope="function")
			
 
				+def tmp_socket():
			
 
				+    with tempfile.TemporaryDirectory() as td:
			
 
				+        yield f"ipc://{td}/{uuid.uuid4()}"
			
 
				+
			
 
				+
			
 
				+def run_with_evil_forward(engine_args: AsyncEngineArgs, ipc_path: str):
			
 
				+    # Make engine.
			
 
				+    engine = MQAphroditeEngine.from_engine_args(
			
 
				+        engine_args=engine_args,
			
 
				+        ipc_path=ipc_path)
			
 
				+
			
 
				+    # Raise error during first forward pass.
			
 
				+    engine.engine.model_executor.execute_model = Mock(
			
 
				+        side_effect=RAISED_ERROR(RAISED_VALUE))
			
 
				+
			
 
				+    # Run engine.
			
 
				+    engine.start()
			
 
				+
			
 
				+
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_evil_forward(tmp_socket):
			
 
				+    with RemoteMQAphroditeEngine(engine_args=ENGINE_ARGS,
			
 
				+                           ipc_path=tmp_socket,
			
 
				+                           run_fn=run_with_evil_forward) as engine:
			
 
				+
			
 
				+        client = await engine.make_client()
			
 
				+
			
 
				+        # Server should be healthy after initial probe.
			
 
				+        await asyncio.sleep(2.0)
			
 
				+        await client.check_health()
			
 
				+
			
 
				+        # Throws an error in first forward pass.
			
 
				+        with pytest.raises(RAISED_ERROR):
			
 
				+            async for _ in client.generate(prompt="Hello my name is",
			
 
				+                                           sampling_params=SamplingParams(),
			
 
				+                                           request_id=uuid.uuid4()):
			
 
				+                pass
			
 
				+        assert client.errored
			
 
				+
			
 
				+        # Engine is errored, should get ENGINE_DEAD_ERROR.
			
 
				+        with pytest.raises(MQEngineDeadError):
			
 
				+            async for _ in client.generate(prompt="Hello my name is",
			
 
				+                                           sampling_params=SamplingParams(),
			
 
				+                                           request_id=uuid.uuid4()):
			
 
				+                pass
			
 
				+        assert client.errored
			
 
				+
			
 
				+        await asyncio.sleep(1.0)
			
 
				+        with pytest.raises(RAISED_ERROR):
			
 
				+            await client.check_health()
			
 
				+        assert client.errored
			
 
				+
			
 
				+        # Shutdown.
			
 
				+        client.close()
			
 
				+
			
 
				+
			
 
				+def run_with_evil_model_executor_health(engine_args: AsyncEngineArgs,
			
 
				+                                        ipc_path: str):
			
 
				+    # Make engine.
			
 
				+    engine = MQAphroditeEngine.from_engine_args(
			
 
				+        engine_args=engine_args,
			
 
				+        ipc_path=ipc_path)
			
 
				+
			
 
				+    # Raise error during first forward pass.
			
 
				+    engine.engine.model_executor.check_health = Mock(side_effect=RAISED_ERROR)
			
 
				+
			
 
				+    # Run engine.
			
 
				+    engine.start()
			
 
				+
			
 
				+
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_failed_health_check(tmp_socket):
			
 
				+    with RemoteMQAphroditeEngine(
			
 
				+            engine_args=ENGINE_ARGS,
			
 
				+            ipc_path=tmp_socket,
			
 
				+            run_fn=run_with_evil_model_executor_health) as engine:
			
 
				+
			
 
				+        client = await engine.make_client()
			
 
				+        assert client.is_running
			
 
				+
			
 
				+        # Health probe should throw RAISED_ERROR.
			
 
				+        await asyncio.sleep(15.)
			
 
				+
			
 
				+        with pytest.raises(RAISED_ERROR):
			
 
				+            await client.check_health()
			
 
				+        assert client.errored
			
 
				+
			
 
				+        # Generate call should throw ENGINE_DEAD_ERROR
			
 
				+        with pytest.raises(MQEngineDeadError):
			
 
				+            async for _ in client.generate(prompt="Hello my name is",
			
 
				+                                           sampling_params=SamplingParams(),
			
 
				+                                           request_id=uuid.uuid4()):
			
 
				+                pass
			
 
				+
			
 
				+        client.close()
			
 
				+
			
 
				+
			
 
				+def run_with_evil_abort(engine_args: AsyncEngineArgs, ipc_path: str):
			
 
				+    # Make engine.
			
 
				+    engine = MQAphroditeEngine.from_engine_args(
			
 
				+        engine_args=engine_args,
			
 
				+        ipc_path=ipc_path)
			
 
				+
			
 
				+    # Raise error during abort call.
			
 
				+    engine.engine.abort_request = Mock(side_effect=RAISED_ERROR)
			
 
				+
			
 
				+    # Run engine.
			
 
				+    engine.start()
			
 
				+
			
 
				+
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_failed_abort(tmp_socket):
			
 
				+    with RemoteMQAphroditeEngine(engine_args=ENGINE_ARGS,
			
 
				+                           ipc_path=tmp_socket,
			
 
				+                           run_fn=run_with_evil_abort) as engine:
			
 
				+
			
 
				+        client = await engine.make_client()
			
 
				+        assert client.is_running
			
 
				+
			
 
				+        # Firsh check health should work.
			
 
				+        await client.check_health()
			
 
				+
			
 
				+        # Trigger an abort on the client side.
			
 
				+        async def bad_abort_after_2s():
			
 
				+            await asyncio.sleep(2.0)
			
 
				+            await client.abort(request_id="foo")
			
 
				+
			
 
				+        # Trigger an abort in 2s from now.
			
 
				+        abort_task = asyncio.create_task(bad_abort_after_2s())
			
 
				+
			
 
				+        # Exception in abort() will happen during this generation.
			
 
				+        # This will kill the engine and should return ENGINE_DEAD_ERROR
			
 
				+        # with reference to the original KeyError("foo")
			
 
				+        with pytest.raises(MQEngineDeadError) as execinfo:
			
 
				+            async for _ in client.generate(
			
 
				+                    prompt="Hello my name is",
			
 
				+                    sampling_params=SamplingParams(max_tokens=2000),
			
 
				+                    request_id=uuid.uuid4()):
			
 
				+                pass
			
 
				+        assert "KeyError" in repr(execinfo.value)
			
 
				+        assert client.errored
			
 
				+
			
 
				+        await abort_task
			
 
				+
			
 
				+        # This should raise the original error.
			
 
				+        with pytest.raises(RAISED_ERROR):
			
 
				+            await client.check_health()
			
 
				+
			
 
				+        client.close()
			
 
				+
			
 
				+
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_bad_request(tmp_socket):
			
 
				+    with RemoteMQAphroditeEngine(engine_args=ENGINE_ARGS,
			
 
				+                           ipc_path=tmp_socket) as engine:
			
 
				+
			
 
				+        client = await engine.make_client()
			
 
				+
			
 
				+        # Invalid request should fail, but not crash the server.
			
 
				+        with pytest.raises(ValueError):
			
 
				+            async for _ in client.generate(prompt="Hello my name is",
			
 
				+                                           sampling_params=SamplingParams(),
			
 
				+                                           request_id="abcd-1",
			
 
				+                                           lora_request=LoRARequest(
			
 
				+                                               "invalid-lora", 1,
			
 
				+                                               "invalid-path")):
			
 
				+                pass
			
 
				+
			
 
				+        # This request should be okay.
			
 
				+        async for _ in client.generate(prompt="Hello my name is",
			
 
				+                                       sampling_params=SamplingParams(),
			
 
				+                                       request_id="abcd-2"):
			
 
				+            pass
			
 
				+
			
 
				+        # Shutdown.
			
 
				+        client.close()
			
 
				+
			
 
				+
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_mp_crash_detection(monkeypatch):
			
 
				+
			
 
				+    parser = FlexibleArgumentParser(
			
 
				+        description="Aphrodite's remote OpenAI server.")
			
 
				+    parser = make_arg_parser(parser)
			
 
				+    args = parser.parse_args([])
			
 
				+
			
 
				+    # When AphroditeEngine is loaded, it will crash.
			
 
				+    def mock_init():
			
 
				+        raise ValueError
			
 
				+
			
 
				+    monkeypatch.setattr(AphroditeEngine, "__init__", mock_init)
			
 
				+
			
 
				+    start = time.perf_counter()
			
 
				+    async with build_engine_client(args):
			
 
				+        pass
			
 
				+    end = time.perf_counter()
			
 
				+
			
 
				+    assert end - start < 60, (
			
 
				+        "Expected Aphrodite to gracefully shutdown in <60s "
			
 
				+        "if there is an error in the startup.")
			
 
				+
			
 
				+
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_mp_cuda_init():
			
 
				+    # it should not crash, when cuda is initialized
			
 
				+    # in the API server process
			
 
				+    import torch
			
 
				+    torch.cuda.init()
			
 
				+    parser = FlexibleArgumentParser(
			
 
				+        description="Aphrodite's remote OpenAI server.")
			
 
				+    parser = make_arg_parser(parser)
			
 
				+    args = parser.parse_args([])
			
 
				+
			
 
				+    async with build_engine_client(args):
			
 
				+        pass
			
--- a/tests/mq_aphrodite_engine/test_load.py
+++ b/tests/mq_aphrodite_engine/test_load.py
@@ -0,0 +1,58 @@
 
				+"""Test that the MQLLMEngine is able to handle 10k concurrent requests."""
			
 
				+
			
 
				+import asyncio
			
 
				+import tempfile
			
 
				+import uuid
			
 
				+
			
 
				+import pytest
			
 
				+
			
 
				+from aphrodite.engine.args_tools import AsyncEngineArgs
			
 
				+from tests.mq_aphrodite_engine.utils import RemoteMQAphroditeEngine, generate
			
 
				+
			
 
				+MODEL = "google/gemma-1.1-2b-it"
			
 
				+NUM_EXPECTED_TOKENS = 10
			
 
				+NUM_REQUESTS = 10000
			
 
				+
			
 
				+# Scenarios to test for num generated token.
			
 
				+ENGINE_ARGS = AsyncEngineArgs(model=MODEL, disable_log_requests=True)
			
 
				+
			
 
				+
			
 
				+@pytest.fixture(scope="function")
			
 
				+def tmp_socket():
			
 
				+    with tempfile.TemporaryDirectory() as td:
			
 
				+        yield f"ipc://{td}/{uuid.uuid4()}"
			
 
				+
			
 
				+
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_load(tmp_socket):
			
 
				+    with RemoteMQAphroditeEngine(
			
 
				+        engine_args=ENGINE_ARGS,
			
 
				+        ipc_path=tmp_socket) as engine:
			
 
				+
			
 
				+        client = await engine.make_client()
			
 
				+
			
 
				+        request_ids = [f"request-{i}" for i in range(NUM_REQUESTS)]
			
 
				+
			
 
				+        # Create concurrent requests.
			
 
				+        tasks = []
			
 
				+        for request_id in request_ids:
			
 
				+            tasks.append(
			
 
				+                asyncio.create_task(
			
 
				+                    generate(client, request_id, NUM_EXPECTED_TOKENS)))
			
 
				+
			
 
				+        # Confirm that we got all the EXPECTED tokens from the requests.
			
 
				+        failed_request_id = None
			
 
				+        tokens = None
			
 
				+        for task in tasks:
			
 
				+            num_generated_tokens, request_id = await task
			
 
				+            if (num_generated_tokens != NUM_EXPECTED_TOKENS
			
 
				+                    and failed_request_id is None):
			
 
				+                failed_request_id = request_id
			
 
				+                tokens = num_generated_tokens
			
 
				+
			
 
				+        assert failed_request_id is None, (
			
 
				+            f"{failed_request_id} generated {tokens} but "
			
 
				+            f"expected {NUM_EXPECTED_TOKENS}")
			
 
				+
			
 
				+        # Shutdown.
			
 
				+        client.close()
			
--- a/tests/mq_aphrodite_engine/utils.py
+++ b/tests/mq_aphrodite_engine/utils.py
@@ -0,0 +1,76 @@
 
				+import asyncio
			
 
				+import multiprocessing
			
 
				+from typing import Callable, Tuple, Union
			
 
				+
			
 
				+from aphrodite import SamplingParams
			
 
				+from aphrodite.common.outputs import RequestOutput
			
 
				+from aphrodite.engine.args_tools import AsyncEngineArgs
			
 
				+from aphrodite.engine.multiprocessing.client import MQAphroditeEngineClient
			
 
				+from aphrodite.engine.multiprocessing.engine import MQAphroditeEngine
			
 
				+
			
 
				+
			
 
				+async def generate(
			
 
				+        client: MQAphroditeEngineClient,
			
 
				+        request_id: str,
			
 
				+        num_tokens: int,
			
 
				+        return_output: bool = False) -> Union[RequestOutput, Tuple[int, str]]:
			
 
				+
			
 
				+    final_output = None
			
 
				+    count = 0
			
 
				+    async for out in client.generate(
			
 
				+            request_id=request_id,
			
 
				+            prompt="Hello my name is Robert and",
			
 
				+            sampling_params=SamplingParams(max_tokens=num_tokens,
			
 
				+                                           temperature=0)):
			
 
				+
			
 
				+        count += 1
			
 
				+        final_output = out
			
 
				+        await asyncio.sleep(0.)
			
 
				+
			
 
				+    if return_output:
			
 
				+        return final_output
			
 
				+
			
 
				+    # Confirm we generated all the tokens we expected.
			
 
				+    return count, request_id
			
 
				+
			
 
				+
			
 
				+def run_normal(engine_args: AsyncEngineArgs, ipc_path: str):
			
 
				+    # Make engine.
			
 
				+    engine = MQAphroditeEngine.from_engine_args(
			
 
				+        engine_args=engine_args,
			
 
				+        ipc_path=ipc_path)
			
 
				+
			
 
				+    # Run engine.
			
 
				+    engine.start()
			
 
				+
			
 
				+
			
 
				+class RemoteMQAphroditeEngine:
			
 
				+
			
 
				+    def __init__(self,
			
 
				+                 engine_args: AsyncEngineArgs,
			
 
				+                 ipc_path: str,
			
 
				+                 run_fn: Callable = run_normal) -> None:
			
 
				+
			
 
				+        self.engine_args = engine_args
			
 
				+        self.ipc_path = ipc_path
			
 
				+        context = multiprocessing.get_context("spawn")
			
 
				+        self.proc = context.Process(target=run_fn,
			
 
				+                                    args=(engine_args, ipc_path))
			
 
				+        self.proc.start()
			
 
				+
			
 
				+    def __enter__(self):
			
 
				+        return self
			
 
				+
			
 
				+    def __exit__(self, exc_type, exc_value, traceback):
			
 
				+        self.proc.kill()
			
 
				+
			
 
				+    async def make_client(self) -> MQAphroditeEngineClient:
			
 
				+        engine_config = self.engine_args.create_engine_config()
			
 
				+        client = MQAphroditeEngineClient(self.ipc_path, engine_config)
			
 
				+        while True:
			
 
				+            try:
			
 
				+                await client.setup()
			
 
				+                break
			
 
				+            except TimeoutError:
			
 
				+                assert self.proc.is_alive()
			
 
				+        return client