6 months ago · 4d4e767838
--- a/aphrodite/attention/backends/abstract.py
+++ b/aphrodite/attention/backends/abstract.py
@@ -7,8 +7,8 @@ from typing import (TYPE_CHECKING, Any, Dict, Generic, List, Optional, Set,
 
															 import torch
														
 
															 if TYPE_CHECKING:
														
 
															-    from aphrodite.task_handler.model_runner_base import \
														
 
															-        ModelRunnerInputBuilderBase
														
 
															+    from aphrodite.task_handler.model_runner_base import (
														
 
															+        ModelRunnerInputBuilderBase)
														
 
															 class AttentionType(Enum):
														
--- a/aphrodite/attention/backends/rocm_flash_attn.py
+++ b/aphrodite/attention/backends/rocm_flash_attn.py
@@ -279,8 +279,8 @@ class ROCmFlashAttentionImpl(AttentionImpl):
 
															             "APHRODITE_USE_TRITON_FLASH_ATTN", "True").lower()
														
 
															                                       in ("true", "1"))
														
 
															         if self.use_triton_flash_attn:
														
 
															-            from aphrodite.attention.ops.triton_flash_attn import \
														
 
															-                triton_attention  # noqa: F401
														
 
															+            from aphrodite.attention.ops.triton_flash_attn import (  # noqa: F401
														
 
															+                triton_attention)
														
 
															             self.attn_func = triton_attention
														
 
															             logger.debug("Using Triton FA in ROCmBackend")
														
 
															             if self.sliding_window != (-1, -1):
														
--- a/aphrodite/attention/ops/blocksparse_attention/interface.py
+++ b/aphrodite/attention/ops/blocksparse_attention/interface.py
@@ -11,8 +11,8 @@ IS_COMPUTE_8_OR_ABOVE = (torch.cuda.is_available()
 
															                          and current_platform.get_device_capability()[0] >= 8)
														
 
															 if IS_COMPUTE_8_OR_ABOVE:
														
 
															-    from aphrodite.attention.ops.blocksparse_attention.blocksparse_attention_kernel import \
														
 
															-        blocksparse_flash_attn_varlen_fwd  # noqa: E501
														
 
															+    from aphrodite.attention.ops.blocksparse_attention.blocksparse_attention_kernel import (  # noqa: E501
														
 
															+        blocksparse_flash_attn_varlen_fwd)
														
 
															 class LocalStridedBlockSparseAttn(torch.nn.Module):
														
--- a/aphrodite/attention/selector.py
+++ b/aphrodite/attention/selector.py
@@ -38,8 +38,8 @@ def get_attn_backend(
 
															     if is_blocksparse:
														
 
															         logger.info("Using BlocksparseFlashAttention backend.")
														
 
															-        from aphrodite.attention.backends.blocksparse_attn import \
														
 
															-            BlocksparseFlashAttentionBackend
														
 
															+        from aphrodite.attention.backends.blocksparse_attn import (
														
 
															+            BlocksparseFlashAttentionBackend)
														
 
															         return BlocksparseFlashAttentionBackend
														
 
															     """Determine which attention backend to use and only import
														
 
															     the selected backend module.
														
@@ -48,18 +48,18 @@ def get_attn_backend(
 
															                                 sliding_window, dtype, kv_cache_dtype,
														
 
															                                 block_size)
														
 
															     if backend == _Backend.FLASH_ATTN:
														
 
															-        from aphrodite.attention.backends.flash_attn import \
														
 
															-            FlashAttentionBackend  # noqa: F401
														
 
															+        from aphrodite.attention.backends.flash_attn import (  # noqa: F401
														
 
															+            FlashAttentionBackend)
														
 
															         return FlashAttentionBackend
														
 
															     if backend == _Backend.XFORMERS:
														
 
															         logger.info("Using XFormers backend.")
														
 
															-        from aphrodite.attention.backends.xformers import \
														
 
															-            XFormersBackend  # noqa: F401
														
 
															+        from aphrodite.attention.backends.xformers import (  # noqa: F401
														
 
															+            XFormersBackend)
														
 
															         return XFormersBackend
														
 
															     elif backend == _Backend.ROCM_FLASH:
														
 
															         logger.info("Using ROCmFlashAttention backend.")
														
 
															-        from aphrodite.attention.backends.rocm_flash_attn import \
														
 
															-            ROCmFlashAttentionBackend  # noqa: F401
														
 
															+        from aphrodite.attention.backends.rocm_flash_attn import (  # noqa: F401
														
 
															+            ROCmFlashAttentionBackend)
														
 
															         return ROCmFlashAttentionBackend
														
 
															     elif backend == _Backend.TORCH_SDPA:
														
 
															         assert is_cpu(), RuntimeError(
														
@@ -69,8 +69,8 @@ def get_attn_backend(
 
															         return TorchSDPABackend
														
 
															     elif backend == _Backend.OPENVINO:
														
 
															         logger.info("Using OpenVINO attention backend.")
														
 
															-        from aphrodite.attention.backends.openvino import \
														
 
															-            OpenVINOAttentionBackend
														
 
															+        from aphrodite.attention.backends.openvino import (
														
 
															+            OpenVINOAttentionBackend)
														
 
															         return OpenVINOAttentionBackend
														
 
															     elif backend == _Backend.IPEX:
														
 
															         assert is_xpu(), RuntimeError(
														
@@ -177,8 +177,8 @@ def which_attn_to_use(
 
															         try:
														
 
															             import aphrodite_flash_attn  # noqa: F401
														
 
															-            from aphrodite.attention.backends.flash_attn import \
														
 
															-                FlashAttentionBackend  # noqa: F401
														
 
															+            from aphrodite.attention.backends.flash_attn import (  # noqa: F401
														
 
															+                FlashAttentionBackend)
														
 
															             supported_sizes = FlashAttentionBackend.get_supported_head_sizes()
														
 
															             if head_size not in supported_sizes:
														
--- a/aphrodite/common/config.py
+++ b/aphrodite/common/config.py
@@ -23,8 +23,8 @@ if TYPE_CHECKING:
 
															     from aphrodite.executor.executor_base import ExecutorBase
														
 
															     from aphrodite.modeling.model_loader.loader import BaseModelLoader
														
 
															-    from aphrodite.transformers_utils.tokenizer_group.base_tokenizer_group import \
														
 
															-        BaseTokenizerGroup  # noqa: E501
														
 
															+    from aphrodite.transformers_utils.tokenizer_group.base_tokenizer_group import (  # noqa: E501
														
 
															+        BaseTokenizerGroup)
														
 
															 # If true, will load models from ModelScope instead of Hugging Face Hub.
														
 
															 APHRODITE_USE_MODELSCOPE = os.environ.get("APHRODITE_USE_MODELSCOPE",
														
--- a/aphrodite/distributed/device_communicators/custom_all_reduce.py
+++ b/aphrodite/distributed/device_communicators/custom_all_reduce.py
@@ -9,8 +9,8 @@ from torch.distributed import ProcessGroup
 
															 from aphrodite import _custom_ops as ops
														
 
															 from aphrodite.common.utils import cuda_device_count_stateless, is_full_nvlink
														
 
															-from aphrodite.distributed.device_communicators.custom_all_reduce_utils import \
														
 
															-    gpu_p2p_access_check
														
 
															+from aphrodite.distributed.device_communicators.custom_all_reduce_utils import (
														
 
															+    gpu_p2p_access_check)
														
 
															 from aphrodite.distributed.parallel_state import in_the_same_node_as
														
 
															 try:
														
--- a/aphrodite/distributed/device_communicators/custom_all_reduce_utils.py
+++ b/aphrodite/distributed/device_communicators/custom_all_reduce_utils.py
@@ -13,8 +13,8 @@ from loguru import logger
 
															 from aphrodite.common.utils import (cuda_device_count_stateless,
														
 
															                                     update_environment_variables)
														
 
															-from aphrodite.distributed.device_communicators.cuda_wrapper import \
														
 
															-    CudaRTLibrary
														
 
															+from aphrodite.distributed.device_communicators.cuda_wrapper import (
														
 
															+    CudaRTLibrary)
														
 
															 def producer(batch_src: Sequence[int],
														
--- a/aphrodite/distributed/parallel_state.py
+++ b/aphrodite/distributed/parallel_state.py
@@ -144,10 +144,10 @@ class GroupCoordinator:
 
															         self.use_tpu_communicator = use_tpu_communicator
														
 
															         # lazy import to avoid documentation build error
														
 
															-        from aphrodite.distributed.device_communicators.custom_all_reduce import \
														
 
															-            CustomAllreduce  # noqa: E501
														
 
															-        from aphrodite.distributed.device_communicators.pynccl import \
														
 
															-            PyNcclCommunicator
														
 
															+        from aphrodite.distributed.device_communicators.custom_all_reduce import (  # noqa: E501
														
 
															+            CustomAllreduce)
														
 
															+        from aphrodite.distributed.device_communicators.pynccl import (
														
 
															+            PyNcclCommunicator)
														
 
															         self.pynccl_comm: Optional[PyNcclCommunicator]
														
 
															         if use_pynccl and self.world_size > 1:
														
@@ -168,14 +168,14 @@ class GroupCoordinator:
 
															         else:
														
 
															             self.ca_comm = None
														
 
															-        from aphrodite.distributed.device_communicators.tpu_communicator import \
														
 
															-            TpuCommunicator  # noqa: E501
														
 
															+        from aphrodite.distributed.device_communicators.tpu_communicator import (  # noqa: E501
														
 
															+            TpuCommunicator)
														
 
															         self.tpu_communicator: Optional[TpuCommunicator]
														
 
															         if use_tpu_communicator and self.world_size > 1:
														
 
															             self.tpu_communicator = TpuCommunicator(group=self.cpu_group)
														
 
															-        from aphrodite.distributed.device_communicators.shm_broadcast import \
														
 
															-            MessageQueue
														
 
															+        from aphrodite.distributed.device_communicators.shm_broadcast import (
														
 
															+            MessageQueue)
														
 
															         self.mq_broadcaster: Optional[MessageQueue] = None
														
 
															         if use_message_queue_broadcaster and self.world_size > 1:
														
 
															             self.mq_broadcaster = MessageQueue.create_from_process_group(
														
--- a/aphrodite/endpoints/chat_utils.py
+++ b/aphrodite/endpoints/chat_utils.py
@@ -10,11 +10,11 @@ from loguru import logger
 
															 # yapf conflicts with isort for this block
														
 
															 # yapf: disable
														
 
															 from openai.types.chat import ChatCompletionContentPartImageParam
														
 
															-from openai.types.chat import \
														
 
															-    ChatCompletionContentPartParam as OpenAIChatCompletionContentPartParam
														
 
															+from openai.types.chat import (
														
 
															+    ChatCompletionContentPartParam as OpenAIChatCompletionContentPartParam)
														
 
															 from openai.types.chat import ChatCompletionContentPartTextParam
														
 
															-from openai.types.chat import \
														
 
															-    ChatCompletionMessageParam as OpenAIChatCompletionMessageParam
														
 
															+from openai.types.chat import (
														
 
															+    ChatCompletionMessageParam as OpenAIChatCompletionMessageParam)
														
 
															 # yapf: enable
														
 
															 # pydantic needs the TypedDict from typing_extensions
														
 
															 from pydantic import ConfigDict
														
--- a/aphrodite/endpoints/openai/api_server.py
+++ b/aphrodite/endpoints/openai/api_server.py
@@ -42,11 +42,11 @@ from aphrodite.endpoints.openai.rpc.client import AsyncEngineRPCClient
 
															 from aphrodite.endpoints.openai.rpc.server import run_rpc_server
														
 
															 # yapf: enable
														
 
															 from aphrodite.endpoints.openai.serving_chat import OpenAIServingChat
														
 
															-from aphrodite.endpoints.openai.serving_completions import \
														
 
															-    OpenAIServingCompletion
														
 
															+from aphrodite.endpoints.openai.serving_completions import (
														
 
															+    OpenAIServingCompletion)
														
 
															 from aphrodite.endpoints.openai.serving_embedding import OpenAIServingEmbedding
														
 
															-from aphrodite.endpoints.openai.serving_tokenization import \
														
 
															-    OpenAIServingTokenization
														
 
															+from aphrodite.endpoints.openai.serving_tokenization import (
														
 
															+    OpenAIServingTokenization)
														
 
															 from aphrodite.engine.args_tools import AsyncEngineArgs
														
 
															 from aphrodite.engine.async_aphrodite import AsyncAphrodite
														
 
															 from aphrodite.engine.protocol import AsyncEngineClient
														
--- a/aphrodite/endpoints/openai/rpc/client.py
+++ b/aphrodite/endpoints/openai/rpc/client.py
@@ -17,8 +17,8 @@ from aphrodite.endpoints.openai.rpc import (APHRODITE_RPC_HEALTHY_STR,
 
															 from aphrodite.inputs import PromptInputs
														
 
															 from aphrodite.lora.request import LoRARequest
														
 
															 from aphrodite.prompt_adapter.request import PromptAdapterRequest
														
 
															-from aphrodite.transformers_utils.tokenizer_group import \
														
 
															-    init_tokenizer_from_configs
														
 
															+from aphrodite.transformers_utils.tokenizer_group import (
														
 
															+    init_tokenizer_from_configs)
														
 
															 class AsyncEngineRPCClient:
														
--- a/aphrodite/endpoints/openai/serving_engine.py
+++ b/aphrodite/endpoints/openai/serving_engine.py
@@ -29,8 +29,8 @@ from aphrodite.endpoints.openai.protocol import (ChatCompletionRequest,
 
															 from aphrodite.engine.protocol import AsyncEngineClient
														
 
															 from aphrodite.inputs import parse_and_batch_prompt
														
 
															 from aphrodite.lora.request import LoRARequest
														
 
															-from aphrodite.modeling.guided_decoding import \
														
 
															-    get_guided_decoding_logits_processor
														
 
															+from aphrodite.modeling.guided_decoding import (
														
 
															+    get_guided_decoding_logits_processor)
														
 
															 from aphrodite.prompt_adapter.request import PromptAdapterRequest
														
--- a/aphrodite/engine/aphrodite_engine.py
+++ b/aphrodite/engine/aphrodite_engine.py
@@ -26,11 +26,11 @@ from aphrodite.common.utils import Counter
 
															 from aphrodite.engine.args_tools import EngineArgs
														
 
															 from aphrodite.engine.metrics import (LoggingStatLogger, PrometheusStatLogger,
														
 
															                                       StatLoggerBase, Stats)
														
 
															-from aphrodite.engine.output_processor.interfaces import \
														
 
															-    SequenceGroupOutputProcessor
														
 
															+from aphrodite.engine.output_processor.interfaces import (
														
 
															+    SequenceGroupOutputProcessor)
														
 
															 from aphrodite.engine.output_processor.stop_checker import StopChecker
														
 
															-from aphrodite.engine.output_processor.util import \
														
 
															-    create_output_by_sequence_group
														
 
															+from aphrodite.engine.output_processor.util import (
														
 
															+    create_output_by_sequence_group)
														
 
															 from aphrodite.executor.executor_base import ExecutorBase
														
 
															 from aphrodite.executor.ray_utils import initialize_ray_cluster
														
 
															 from aphrodite.inputs import INPUT_REGISTRY, LLMInputs, PromptInputs
														
@@ -368,8 +368,8 @@ class AphroditeEngine:
 
															             from aphrodite.executor.ray_gpu_executor import RayGPUExecutor
														
 
															             executor_class = RayGPUExecutor
														
 
															         elif distributed_executor_backend == "mp":
														
 
															-            from aphrodite.executor.multiproc_gpu_executor import \
														
 
															-                MultiprocessingGPUExecutor
														
 
															+            from aphrodite.executor.multiproc_gpu_executor import (
														
 
															+                MultiprocessingGPUExecutor)
														
 
															             assert not APHRODITE_USE_RAY_SPMD_WORKER, (
														
 
															                 "multiprocessing distributed executor backend does not "
														
 
															                 "support APHRODITE_USE_RAY_SPMD_WORKER=1")
														
--- a/aphrodite/engine/args_tools.py
+++ b/aphrodite/engine/args_tools.py
@@ -17,8 +17,8 @@ from aphrodite.executor.executor_base import ExecutorBase
 
															 from aphrodite.quantization import QUANTIZATION_METHODS
														
 
															 if TYPE_CHECKING:
														
 
															-    from aphrodite.transformers_utils.tokenizer_group.base_tokenizer_group import \
														
 
															-        BaseTokenizerGroup  # noqa: E501
														
 
															+    from aphrodite.transformers_utils.tokenizer_group.base_tokenizer_group import (  # noqa: E501
														
 
															+        BaseTokenizerGroup)
														
 
															 @dataclass
														
--- a/aphrodite/engine/async_aphrodite.py
+++ b/aphrodite/engine/async_aphrodite.py
@@ -408,8 +408,8 @@ class AsyncAphrodite:
 
															         elif engine_config.device_config.device_type == "tpu":
														
 
															             if distributed_executor_backend == "ray":
														
 
															                 initialize_ray_cluster(engine_config.parallel_config)
														
 
															-                from aphrodite.executor.ray_tpu_executor import \
														
 
															-                    RayTPUExecutorAsync
														
 
															+                from aphrodite.executor.ray_tpu_executor import (
														
 
															+                    RayTPUExecutorAsync)
														
 
															                 executor_class = RayTPUExecutorAsync
														
 
															             else:
														
 
															                 assert distributed_executor_backend is None
														
@@ -422,8 +422,8 @@ class AsyncAphrodite:
 
															             assert distributed_executor_backend is None, (
														
 
															                 "Distributed execution is not supported with the OpenVINO "
														
 
															                 "backend.")
														
 
															-            from aphrodite.executor.openvino_executor import \
														
 
															-                OpenVINOExecutorAsync
														
 
															+            from aphrodite.executor.openvino_executor import (
														
 
															+                OpenVINOExecutorAsync)
														
 
															             executor_class = OpenVINOExecutorAsync
														
 
															         elif engine_config.device_config.device_type == "xpu":
														
 
															             if distributed_executor_backend is None:
														
@@ -431,8 +431,8 @@ class AsyncAphrodite:
 
															                 executor_class = XPUExecutorAsync
														
 
															             elif distributed_executor_backend == "ray":
														
 
															                 initialize_ray_cluster(engine_config.parallel_config)
														
 
															-                from aphrodite.executor.ray_xpu_executor import \
														
 
															-                    RayXPUExecutorAsync
														
 
															+                from aphrodite.executor.ray_xpu_executor import (
														
 
															+                    RayXPUExecutorAsync)
														
 
															                 executor_class = RayXPUExecutorAsync
														
 
															             else:
														
 
															                 raise RuntimeError(
														
@@ -442,8 +442,8 @@ class AsyncAphrodite:
 
															             from aphrodite.executor.ray_gpu_executor import RayGPUExecutorAsync
														
 
															             executor_class = RayGPUExecutorAsync
														
 
															         elif distributed_executor_backend == "mp":
														
 
															-            from aphrodite.executor.multiproc_gpu_executor import \
														
 
															-                MultiprocessingGPUExecutorAsync
														
 
															+            from aphrodite.executor.multiproc_gpu_executor import (
														
 
															+                MultiprocessingGPUExecutorAsync)
														
 
															             executor_class = MultiprocessingGPUExecutorAsync
														
 
															         else:
														
 
															             from aphrodite.executor.gpu_executor import GPUExecutorAsync
														
--- a/aphrodite/engine/output_processor/interfaces.py
+++ b/aphrodite/engine/output_processor/interfaces.py
@@ -40,8 +40,8 @@ class SequenceGroupOutputProcessor(ABC):
 
															         """
														
 
															         if scheduler_config.num_lookahead_slots == 0:
														
 
															             # Importing here to avoid cycle.
														
 
															-            from aphrodite.engine.output_processor.single_step import \
														
 
															-                SingleStepOutputProcessor
														
 
															+            from aphrodite.engine.output_processor.single_step import (
														
 
															+                SingleStepOutputProcessor)
														
 
															             return SingleStepOutputProcessor(
														
 
															                 scheduler_config,
														
 
															                 detokenizer,
														
@@ -51,8 +51,8 @@ class SequenceGroupOutputProcessor(ABC):
 
															             )
														
 
															         else:
														
 
															             # Importing here to avoid cycle.
														
 
															-            from aphrodite.engine.output_processor.multi_step import \
														
 
															-                MultiStepOutputProcessor
														
 
															+            from aphrodite.engine.output_processor.multi_step import (
														
 
															+                MultiStepOutputProcessor)
														
 
															             return MultiStepOutputProcessor(
														
 
															                 detokenizer,
														
 
															                 scheduler,
														
--- a/aphrodite/engine/output_processor/multi_step.py
+++ b/aphrodite/engine/output_processor/multi_step.py
@@ -9,8 +9,8 @@ from aphrodite.common.sequence import (Sequence, SequenceGroup,
 
															                                        SequenceGroupOutput, SequenceOutput,
														
 
															                                        SequenceStatus)
														
 
															 from aphrodite.common.utils import Counter
														
 
															-from aphrodite.engine.output_processor.interfaces import \
														
 
															-    SequenceGroupOutputProcessor
														
 
															+from aphrodite.engine.output_processor.interfaces import (
														
 
															+    SequenceGroupOutputProcessor)
														
 
															 from aphrodite.engine.output_processor.stop_checker import StopChecker
														
 
															 from aphrodite.processing.scheduler import Scheduler
														
 
															 from aphrodite.transformers_utils.detokenizer import Detokenizer
														
--- a/aphrodite/engine/output_processor/single_step.py
+++ b/aphrodite/engine/output_processor/single_step.py
@@ -6,8 +6,8 @@ from aphrodite.common.sequence import (Sequence, SequenceGroup,
 
															                                        SequenceGroupOutput, SequenceOutput,
														
 
															                                        SequenceStatus)
														
 
															 from aphrodite.common.utils import Counter
														
 
															-from aphrodite.engine.output_processor.interfaces import \
														
 
															-    SequenceGroupOutputProcessor
														
 
															+from aphrodite.engine.output_processor.interfaces import (
														
 
															+    SequenceGroupOutputProcessor)
														
 
															 from aphrodite.engine.output_processor.stop_checker import StopChecker
														
 
															 from aphrodite.processing.scheduler import Scheduler
														
 
															 from aphrodite.transformers_utils.detokenizer import Detokenizer
														
--- a/aphrodite/lora/layers.py
+++ b/aphrodite/lora/layers.py
@@ -26,8 +26,8 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
															 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
														
 
															 from aphrodite.modeling.layers.rotary_embedding import (
														
 
															     LinearScalingRotaryEmbedding, RotaryEmbedding)
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 if TYPE_CHECKING:
														
 
															     pass
														
--- a/aphrodite/modeling/guided_decoding/__init__.py
+++ b/aphrodite/modeling/guided_decoding/__init__.py
@@ -4,8 +4,8 @@ from aphrodite.common.sampling_params import LogitsProcessorFunc
 
															 from aphrodite.endpoints.openai.protocol import (
														
 
															     ChatCompletionNamedToolChoiceParam, ChatCompletionRequest,
														
 
															     CompletionRequest)
														
 
															-from aphrodite.modeling.guided_decoding.guided_fields import \
														
 
															-    GuidedDecodingRequest
														
 
															+from aphrodite.modeling.guided_decoding.guided_fields import (
														
 
															+    GuidedDecodingRequest)
														
 
															 from aphrodite.modeling.guided_decoding.outlines_decoding import (
														
 
															     get_local_outlines_guided_decoding_logits_processor,
														
 
															     get_outlines_guided_decoding_logits_processor)
														
@@ -20,8 +20,8 @@ async def get_guided_decoding_logits_processor(
 
															         return await get_outlines_guided_decoding_logits_processor(
														
 
															             request, tokenizer)
														
 
															     if guided_decoding_backend == 'lm-format-enforcer':
														
 
															-        from aphrodite.modeling.guided_decoding.lm_format_enforcer_decoding import \
														
 
															-            get_lm_format_enforcer_guided_decoding_logits_processor  # noqa
														
 
															+        from aphrodite.modeling.guided_decoding.lm_format_enforcer_decoding import (  # noqa
														
 
															+            get_lm_format_enforcer_guided_decoding_logits_processor)
														
 
															         return await get_lm_format_enforcer_guided_decoding_logits_processor(
														
 
															             request, tokenizer)
														
@@ -39,8 +39,8 @@ def get_local_guided_decoding_logits_processor(
 
															         return get_local_outlines_guided_decoding_logits_processor(
														
 
															             guided_options, tokenizer)
														
 
															     if guided_decoding_backend == 'lm-format-enforcer':
														
 
															-        from aphrodite.modeling.guided_decoding.lm_format_enforcer_decoding import \
														
 
															-            get_local_lm_format_enforcer_guided_decoding_logits_processor  # noqa
														
 
															+        from aphrodite.modeling.guided_decoding.lm_format_enforcer_decoding import (  # noqa
														
 
															+            get_local_lm_format_enforcer_guided_decoding_logits_processor)
														
 
															         return get_local_lm_format_enforcer_guided_decoding_logits_processor(
														
 
															             guided_options, tokenizer)
														
--- a/aphrodite/modeling/guided_decoding/lm_format_enforcer_decoding.py
+++ b/aphrodite/modeling/guided_decoding/lm_format_enforcer_decoding.py
@@ -11,8 +11,8 @@ from transformers import PreTrainedTokenizerBase
 
															 from aphrodite.common.sampling_params import LogitsProcessorFunc
														
 
															 from aphrodite.endpoints.openai.protocol import (ChatCompletionRequest,
														
 
															                                                  CompletionRequest)
														
 
															-from aphrodite.modeling.guided_decoding.guided_fields import \
														
 
															-    GuidedDecodingRequest
														
 
															+from aphrodite.modeling.guided_decoding.guided_fields import (
														
 
															+    GuidedDecodingRequest)
														
 
															 from aphrodite.modeling.guided_decoding.lm_format_enforcer_logits_processors import (  # noqa: E501
														
 
															     build_aphrodite_logits_processor,
														
 
															     build_aphrodite_token_enforcer_tokenizer_data)
														
--- a/aphrodite/modeling/guided_decoding/outlines_decoding.py
+++ b/aphrodite/modeling/guided_decoding/outlines_decoding.py
@@ -10,8 +10,8 @@ from transformers import PreTrainedTokenizerBase
 
															 from aphrodite.endpoints.openai.protocol import (ChatCompletionRequest,
														
 
															                                                  CompletionRequest)
														
 
															-from aphrodite.modeling.guided_decoding.guided_fields import \
														
 
															-    GuidedDecodingRequest
														
 
															+from aphrodite.modeling.guided_decoding.guided_fields import (
														
 
															+    GuidedDecodingRequest)
														
 
															 from aphrodite.modeling.guided_decoding.outlines_logits_processors import (
														
 
															     CFGLogitsProcessor, JSONLogitsProcessor, RegexLogitsProcessor)
														
--- a/aphrodite/modeling/layers/logits_processor.py
+++ b/aphrodite/modeling/layers/logits_processor.py
@@ -7,8 +7,8 @@ import torch.nn as nn
 
															 from aphrodite.distributed import (tensor_model_parallel_all_gather,
														
 
															                                    tensor_model_parallel_gather)
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 from aphrodite.modeling.sampling_metadata import SamplingMetadata
														
 
															 from aphrodite.platforms import current_platform
														
--- a/aphrodite/modeling/layers/typical_acceptance_sampler.py
+++ b/aphrodite/modeling/layers/typical_acceptance_sampler.py
@@ -1,8 +1,8 @@
 
															 import torch
														
 
															 import torch.jit
														
 
															-from aphrodite.modeling.layers.spec_decode_base_sampler import \
														
 
															-    SpecDecodeDeterministicBaseSampler
														
 
															+from aphrodite.modeling.layers.spec_decode_base_sampler import (
														
 
															+    SpecDecodeDeterministicBaseSampler)
														
 
															 class TypicalAcceptanceSampler(SpecDecodeDeterministicBaseSampler):
														
--- a/aphrodite/modeling/model_loader/tensorizer.py
+++ b/aphrodite/modeling/model_loader/tensorizer.py
@@ -16,8 +16,8 @@ from transformers import PretrainedConfig
 
															 from aphrodite.common.config import ModelConfig, ParallelConfig
														
 
															 from aphrodite.engine.aphrodite_engine import AphroditeEngine
														
 
															 from aphrodite.engine.args_tools import EngineArgs
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 from aphrodite.quantization.base_config import QuantizationConfig
														
 
															 tensorizer_error_msg = None
														
--- a/aphrodite/modeling/models/bloom.py
+++ b/aphrodite/modeling/models/bloom.py
@@ -34,8 +34,8 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
															                                               RowParallelLinear)
														
 
															 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
														
 
															 from aphrodite.modeling.layers.sampler import Sampler
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
														
 
															 from aphrodite.modeling.sampling_metadata import SamplingMetadata
														
 
															 from aphrodite.quantization.base_config import QuantizationConfig
														
--- a/aphrodite/modeling/models/falcon.py
+++ b/aphrodite/modeling/models/falcon.py
@@ -39,8 +39,8 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
															 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
														
 
															 from aphrodite.modeling.layers.rotary_embedding import get_rope
														
 
															 from aphrodite.modeling.layers.sampler import Sampler
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
														
 
															 from aphrodite.modeling.sampling_metadata import SamplingMetadata
														
 
															 from aphrodite.quantization.base_config import QuantizationConfig
														
--- a/aphrodite/modeling/models/gemma.py
+++ b/aphrodite/modeling/models/gemma.py
@@ -34,8 +34,8 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
															 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
														
 
															 from aphrodite.modeling.layers.rotary_embedding import GemmaRotaryEmbedding
														
 
															 from aphrodite.modeling.layers.sampler import Sampler
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
														
 
															 from aphrodite.modeling.sampling_metadata import SamplingMetadata
														
 
															 from aphrodite.quantization.base_config import QuantizationConfig
														
--- a/aphrodite/modeling/models/gemma2.py
+++ b/aphrodite/modeling/models/gemma2.py
@@ -34,8 +34,8 @@ from aphrodite.modeling.layers.linear import (MergedColumnParallelLinear,
 
															 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
														
 
															 from aphrodite.modeling.layers.rotary_embedding import GemmaRotaryEmbedding
														
 
															 from aphrodite.modeling.layers.sampler import Sampler
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
														
 
															 from aphrodite.modeling.sampling_metadata import SamplingMetadata
														
 
															 from aphrodite.quantization.base_config import QuantizationConfig
														
--- a/aphrodite/modeling/models/gpt2.py
+++ b/aphrodite/modeling/models/gpt2.py
@@ -33,8 +33,8 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
															                                               RowParallelLinear)
														
 
															 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
														
 
															 from aphrodite.modeling.layers.sampler import Sampler
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
														
 
															 from aphrodite.modeling.sampling_metadata import SamplingMetadata
														
 
															 from aphrodite.quantization.base_config import QuantizationConfig
														
--- a/aphrodite/modeling/models/gpt_bigcode.py
+++ b/aphrodite/modeling/models/gpt_bigcode.py
@@ -34,8 +34,8 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
															                                               RowParallelLinear)
														
 
															 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
														
 
															 from aphrodite.modeling.layers.sampler import Sampler
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
														
 
															 from aphrodite.modeling.sampling_metadata import SamplingMetadata
														
 
															 from aphrodite.quantization.base_config import QuantizationConfig
														
--- a/aphrodite/modeling/models/jais.py
+++ b/aphrodite/modeling/models/jais.py
@@ -35,8 +35,8 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
															                                               RowParallelLinear)
														
 
															 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
														
 
															 from aphrodite.modeling.layers.sampler import Sampler
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
														
 
															 from aphrodite.modeling.sampling_metadata import SamplingMetadata
														
 
															 from aphrodite.quantization.base_config import QuantizationConfig
														
--- a/aphrodite/modeling/models/llama.py
+++ b/aphrodite/modeling/models/llama.py
@@ -53,8 +53,8 @@ from aphrodite.modeling.models.utils import (PPMissingLayer,
 
															                                              make_layers)
														
 
															 from aphrodite.modeling.sampling_metadata import SamplingMetadata
														
 
															 from aphrodite.quantization.base_config import QuantizationConfig
														
 
															-from aphrodite.quantization.compressed_tensors.utils import \
														
 
															-    get_compressed_tensors_cache_scale
														
 
															+from aphrodite.quantization.compressed_tensors.utils import (
														
 
															+    get_compressed_tensors_cache_scale)
														
 
															 class LlamaMLP(nn.Module):
														
--- a/aphrodite/modeling/models/mpt.py
+++ b/aphrodite/modeling/models/mpt.py
@@ -17,8 +17,8 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
															                                               RowParallelLinear)
														
 
															 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
														
 
															 from aphrodite.modeling.layers.sampler import Sampler
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
														
 
															 from aphrodite.modeling.sampling_metadata import SamplingMetadata
														
 
															 from aphrodite.quantization.base_config import QuantizationConfig
														
--- a/aphrodite/modeling/models/opt.py
+++ b/aphrodite/modeling/models/opt.py
@@ -34,8 +34,8 @@ from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
 
															                                               RowParallelLinear)
														
 
															 from aphrodite.modeling.layers.logits_processor import LogitsProcessor
														
 
															 from aphrodite.modeling.layers.sampler import Sampler
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 from aphrodite.modeling.model_loader.weight_utils import default_weight_loader
														
 
															 from aphrodite.modeling.sampling_metadata import SamplingMetadata
														
 
															 from aphrodite.quantization.base_config import QuantizationConfig
														
--- a/aphrodite/modeling/models/siglip.py
+++ b/aphrodite/modeling/models/siglip.py
@@ -20,8 +20,8 @@ from aphrodite.modeling.layers.activation import get_act_fn
 
															 from aphrodite.modeling.layers.linear import (ColumnParallelLinear,
														
 
															                                               QKVParallelLinear,
														
 
															                                               RowParallelLinear)
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 from aphrodite.multimodal.image import (cached_get_tokenizer,
														
 
															                                         repeat_and_pad_image_tokens)
														
 
															 from aphrodite.quantization import QuantizationConfig
														
--- a/aphrodite/processing/block/cpu_gpu_block_allocator.py
+++ b/aphrodite/processing/block/cpu_gpu_block_allocator.py
@@ -6,8 +6,8 @@ from aphrodite.processing.block.interfaces import (Block, BlockAllocator,
 
															                                                    DeviceAwareBlockAllocator)
														
 
															 from aphrodite.processing.block.naive_block import (NaiveBlock,
														
 
															                                                     NaiveBlockAllocator)
														
 
															-from aphrodite.processing.block.prefix_caching_block import \
														
 
															-    PrefixCachingBlockAllocator
														
 
															+from aphrodite.processing.block.prefix_caching_block import (
														
 
															+    PrefixCachingBlockAllocator)
														
 
															 class CpuGpuBlockAllocator(DeviceAwareBlockAllocator):
														
--- a/aphrodite/processing/block_manager_v1.py
+++ b/aphrodite/processing/block_manager_v1.py
@@ -12,8 +12,8 @@ from loguru import logger
 
															 from aphrodite.common.block import BlockTable, PhysicalTokenBlock
														
 
															 from aphrodite.common.sequence import Sequence, SequenceGroup, SequenceStatus
														
 
															 from aphrodite.common.utils import Device
														
 
															-from aphrodite.processing.block.utils import \
														
 
															-    check_no_caching_or_swa_for_blockmgr_encdec
														
 
															+from aphrodite.processing.block.utils import (
														
 
															+    check_no_caching_or_swa_for_blockmgr_encdec)
														
 
															 from aphrodite.processing.evictor_v1 import (EvictionPolicy, Evictor,
														
 
															                                              make_evictor)
														
 
															 from aphrodite.processing.interfaces import AllocStatus, BlockSpaceManager
														
--- a/aphrodite/processing/block_manager_v2.py
+++ b/aphrodite/processing/block_manager_v2.py
@@ -7,13 +7,13 @@ from typing import Tuple
 
															 from aphrodite.common.sequence import Sequence, SequenceGroup, SequenceStatus
														
 
															 from aphrodite.common.utils import Device
														
 
															 from aphrodite.processing.block.block_table import BlockTable
														
 
															-from aphrodite.processing.block.cpu_gpu_block_allocator import \
														
 
															-    CpuGpuBlockAllocator
														
 
															+from aphrodite.processing.block.cpu_gpu_block_allocator import (
														
 
															+    CpuGpuBlockAllocator)
														
 
															 from aphrodite.processing.block.interfaces import Block
														
 
															 from aphrodite.processing.block.prefix_caching_block import (
														
 
															     ComputedBlocksTracker, LastAccessBlocksTracker)
														
 
															-from aphrodite.processing.block.utils import \
														
 
															-    check_no_caching_or_swa_for_blockmgr_encdec
														
 
															+from aphrodite.processing.block.utils import (
														
 
															+    check_no_caching_or_swa_for_blockmgr_encdec)
														
 
															 from aphrodite.processing.interfaces import AllocStatus, BlockSpaceManager
														
 
															 SeqId = int
														
--- a/aphrodite/processing/interfaces.py
+++ b/aphrodite/processing/interfaces.py
@@ -28,18 +28,18 @@ class BlockSpaceManager(ABC):
 
															         version = version.lower()
														
 
															         if version == "v1":
														
 
															-            from aphrodite.processing.block_manager_v1 import \
														
 
															-                BlockSpaceManagerV1
														
 
															+            from aphrodite.processing.block_manager_v1 import (
														
 
															+                BlockSpaceManagerV1)
														
 
															             return BlockSpaceManagerV1
														
 
															         if version == "v2":
														
 
															-            from aphrodite.processing.block_manager_v2 import \
														
 
															-                BlockSpaceManagerV2
														
 
															+            from aphrodite.processing.block_manager_v2 import (
														
 
															+                BlockSpaceManagerV2)
														
 
															             return BlockSpaceManagerV2
														
 
															         if version == "embedding":
														
 
															-            from aphrodite.processing.embedding_model_block_manager import \
														
 
															-                EmbeddingModelBlockSpaceManager
														
 
															+            from aphrodite.processing.embedding_model_block_manager import (
														
 
															+                EmbeddingModelBlockSpaceManager)
														
 
															             return EmbeddingModelBlockSpaceManager
														
 
															         raise ValueError(f"Unknown version {version=}")
														
--- a/aphrodite/prompt_adapter/layers.py
+++ b/aphrodite/prompt_adapter/layers.py
@@ -6,8 +6,8 @@ from torch import nn
 
															 from aphrodite.adapter_commons.layers import AdapterMapping
														
 
															 from aphrodite.common.config import PromptAdapterConfig
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 @dataclass
														
--- a/aphrodite/prompt_adapter/models.py
+++ b/aphrodite/prompt_adapter/models.py
@@ -12,8 +12,8 @@ from aphrodite.adapter_commons.utils import (add_adapter, deactivate_adapter,
 
															                                              remove_adapter,
														
 
															                                              set_adapter_mapping)
														
 
															 from aphrodite.common.config import PromptAdapterConfig
														
 
															-from aphrodite.prompt_adapter.layers import \
														
 
															-    VocabParallelEmbeddingWithPromptAdapter  # yapf: disable
														
 
															+from aphrodite.prompt_adapter.layers import (
														
 
															+    VocabParallelEmbeddingWithPromptAdapter)  # yapf: disable
														
 
															 from aphrodite.prompt_adapter.layers import PromptAdapterMapping
														
 
															 logger = logging.getLogger(__name__)
														
--- a/aphrodite/quantization/__init__.py
+++ b/aphrodite/quantization/__init__.py
@@ -6,8 +6,8 @@ from aphrodite.quantization.awq import AWQConfig
 
															 from aphrodite.quantization.awq_marlin import AWQMarlinConfig
														
 
															 from aphrodite.quantization.base_config import QuantizationConfig
														
 
															 from aphrodite.quantization.bitsandbytes import BitsAndBytesConfig
														
 
															-from aphrodite.quantization.compressed_tensors.compressed_tensors import \
														
 
															-    CompressedTensorsConfig
														
 
															+from aphrodite.quantization.compressed_tensors.compressed_tensors import (
														
 
															+    CompressedTensorsConfig)
														
 
															 from aphrodite.quantization.deepspeedfp import DeepSpeedFPConfig
														
 
															 from aphrodite.quantization.eetq import EETQConfig
														
 
															 from aphrodite.quantization.exl2 import Exl2Config
														
--- a/aphrodite/quantization/compressed_tensors/compressed_tensors.py
+++ b/aphrodite/quantization/compressed_tensors/compressed_tensors.py
@@ -57,8 +57,8 @@ class CompressedTensorsConfig(QuantizationConfig):
 
															         layer: torch.nn.Module,
														
 
															         prefix: str,
														
 
															     ) -> Optional["QuantizeMethodBase"]:
														
 
															-        from aphrodite.attention.layer import \
														
 
															-            Attention  # Avoid circular import
														
 
															+        from aphrodite.attention.layer import (
														
 
															+            Attention)  # Avoid circular import
														
 
															         if isinstance(layer, LinearBase):
														
 
															             return CompressedTensorsLinearMethod(self)
														
 
															         if isinstance(layer, Attention):
														
--- a/aphrodite/quantization/compressed_tensors/schemes/compressed_tensors_unquantized.py
+++ b/aphrodite/quantization/compressed_tensors/schemes/compressed_tensors_unquantized.py
@@ -5,8 +5,8 @@ import torch.nn.functional as F
 
															 from torch.nn import Parameter
														
 
															 from aphrodite.modeling.utils import set_weight_attrs
														
 
															-from aphrodite.quantization.compressed_tensors.schemes import \
														
 
															-    CompressedTensorsScheme
														
 
															+from aphrodite.quantization.compressed_tensors.schemes import (
														
 
															+    CompressedTensorsScheme)
														
 
															 __all__ = ["CompressedTensorsUnquantized"]
														
--- a/aphrodite/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_24.py
+++ b/aphrodite/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_24.py
@@ -5,8 +5,8 @@ from torch.nn import Parameter
 
															 from aphrodite import _custom_ops as ops
														
 
															 from aphrodite.modeling.utils import set_weight_attrs
														
 
															-from aphrodite.quantization.compressed_tensors.schemes import \
														
 
															-    CompressedTensorsScheme
														
 
															+from aphrodite.quantization.compressed_tensors.schemes import (
														
 
															+    CompressedTensorsScheme)
														
 
															 from aphrodite.quantization.gptq_marlin_24 import (GPTQ_MARLIN_24_MAX_PARALLEL,
														
 
															                                                    GPTQ_MARLIN_24_MIN_THREAD_N)
														
 
															 from aphrodite.scalar_type import scalar_types
														
--- a/aphrodite/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py
+++ b/aphrodite/quantization/compressed_tensors/schemes/compressed_tensors_w8a16_fp8.py
@@ -3,10 +3,10 @@ from typing import Callable, List, Optional
 
															 import torch
														
 
															 from aphrodite.modeling.utils import set_weight_attrs
														
 
															-from aphrodite.quantization.compressed_tensors.schemes import \
														
 
															-    CompressedTensorsScheme
														
 
															-from aphrodite.quantization.compressed_tensors.utils import \
														
 
															-    QuantizationStrategy
														
 
															+from aphrodite.quantization.compressed_tensors.schemes import (
														
 
															+    CompressedTensorsScheme)
														
 
															+from aphrodite.quantization.compressed_tensors.utils import (
														
 
															+    QuantizationStrategy)
														
 
															 from aphrodite.quantization.utils.marlin_utils_fp8 import (
														
 
															     apply_fp8_marlin_linear, prepare_fp8_layer_for_marlin)
														
 
															 from aphrodite.quantization.utils.w8a8_utils import (
														
--- a/aphrodite/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
+++ b/aphrodite/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_fp8.py
@@ -4,10 +4,10 @@ import torch
 
															 from torch.nn import Parameter
														
 
															 from aphrodite.modeling.utils import set_weight_attrs
														
 
															-from aphrodite.quantization.compressed_tensors.schemes import \
														
 
															-    CompressedTensorsScheme
														
 
															-from aphrodite.quantization.compressed_tensors.utils import \
														
 
															-    QuantizationStrategy
														
 
															+from aphrodite.quantization.compressed_tensors.schemes import (
														
 
															+    CompressedTensorsScheme)
														
 
															+from aphrodite.quantization.compressed_tensors.utils import (
														
 
															+    QuantizationStrategy)
														
 
															 from aphrodite.quantization.utils.w8a8_utils import (
														
 
															     apply_fp8_linear, create_per_channel_scale_param,
														
 
															     create_per_tensor_scale_param, cutlass_fp8_supported,
														
--- a/aphrodite/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_int8.py
+++ b/aphrodite/quantization/compressed_tensors/schemes/compressed_tensors_w8a8_int8.py
@@ -4,10 +4,10 @@ import torch
 
															 from torch.nn import Parameter
														
 
															 from aphrodite.modeling.utils import set_weight_attrs
														
 
															-from aphrodite.quantization.compressed_tensors.schemes import \
														
 
															-    CompressedTensorsScheme
														
 
															-from aphrodite.quantization.compressed_tensors.utils import \
														
 
															-    QuantizationStrategy
														
 
															+from aphrodite.quantization.compressed_tensors.schemes import (
														
 
															+    CompressedTensorsScheme)
														
 
															+from aphrodite.quantization.compressed_tensors.utils import (
														
 
															+    QuantizationStrategy)
														
 
															 from aphrodite.quantization.utils.w8a8_utils import (
														
 
															     apply_int8_linear, convert_to_channelwise, create_per_channel_scale_param,
														
 
															     create_per_tensor_scale_param)
														
--- a/aphrodite/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py
+++ b/aphrodite/quantization/compressed_tensors/schemes/compressed_tensors_wNa16.py
@@ -5,8 +5,8 @@ from torch.nn import Parameter
 
															 from aphrodite import _custom_ops as ops
														
 
															 from aphrodite.modeling.utils import set_weight_attrs
														
 
															-from aphrodite.quantization.compressed_tensors.schemes import \
														
 
															-    CompressedTensorsScheme
														
 
															+from aphrodite.quantization.compressed_tensors.schemes import (
														
 
															+    CompressedTensorsScheme)
														
 
															 from aphrodite.quantization.utils.marlin_utils import (
														
 
															     apply_gptq_marlin_linear, marlin_make_empty_g_idx, marlin_make_workspace,
														
 
															     marlin_permute_scales, replace_tensor, verify_marlin_supported,
														
--- a/aphrodite/quantization/fp8.py
+++ b/aphrodite/quantization/fp8.py
@@ -76,8 +76,8 @@ class Fp8Config(QuantizationConfig):
 
															     def get_quant_method(self, layer: torch.nn.Module,
														
 
															                          prefix: str) -> Optional["QuantizeMethodBase"]:
														
 
															-        from aphrodite.attention.layer import \
														
 
															-            Attention  # Avoid circular import
														
 
															+        from aphrodite.attention.layer import (
														
 
															+            Attention)  # Avoid circular import
														
 
															         if isinstance(layer, LinearBase):
														
 
															             if is_layer_skipped(prefix, self.ignored_layers):
														
--- a/aphrodite/quantization/gguf.py
+++ b/aphrodite/quantization/gguf.py
@@ -6,8 +6,8 @@ from torch.nn.parameter import Parameter, UninitializedParameter
 
															 from aphrodite import _custom_ops as ops
														
 
															 from aphrodite.modeling.layers.linear import LinearBase, LinearMethodBase
														
 
															-from aphrodite.modeling.layers.vocab_parallel_embedding import \
														
 
															-    VocabParallelEmbedding
														
 
															+from aphrodite.modeling.layers.vocab_parallel_embedding import (
														
 
															+    VocabParallelEmbedding)
														
 
															 from aphrodite.modeling.utils import set_weight_attrs
														
 
															 from aphrodite.quantization.base_config import (QuantizationConfig,
														
 
															                                                 QuantizeMethodBase)
														
--- a/aphrodite/spec_decode/draft_model_runner.py
+++ b/aphrodite/spec_decode/draft_model_runner.py
@@ -9,8 +9,8 @@ try:
 
															     from aphrodite.attention.backends.flash_attn import FlashAttentionMetadata
														
 
															 except ModuleNotFoundError:
														
 
															     # aphrodite_flash_attn is not installed, use the identical ROCm FA metadata
														
 
															-    from aphrodite.attention.backends.rocm_flash_attn import \
														
 
															-        ROCmFlashAttentionMetadata as FlashAttentionMetadata
														
 
															+    from aphrodite.attention.backends.rocm_flash_attn import (
														
 
															+        ROCmFlashAttentionMetadata as FlashAttentionMetadata)
														
 
															 try:
														
 
															     from flashinfer import BatchDecodeWithPagedKVCacheWrapper
														
--- a/aphrodite/spec_decode/metrics.py
+++ b/aphrodite/spec_decode/metrics.py
@@ -5,8 +5,8 @@ from typing import Callable, Optional
 
															 import torch
														
 
															 from aphrodite.common.utils import is_pin_memory_available
														
 
															-from aphrodite.modeling.layers.spec_decode_base_sampler import \
														
 
															-    SpecDecodeBaseSampler
														
 
															+from aphrodite.modeling.layers.spec_decode_base_sampler import (
														
 
															+    SpecDecodeBaseSampler)
														
 
															 @dataclass
														
--- a/aphrodite/spec_decode/spec_decode_worker.py
+++ b/aphrodite/spec_decode/spec_decode_worker.py
@@ -15,8 +15,8 @@ from aphrodite.distributed.communication_op import broadcast_tensor_dict
 
															 from aphrodite.modeling.layers.rejection_sampler import RejectionSampler
														
 
															 from aphrodite.modeling.layers.spec_decode_base_sampler import (
														
 
															     SpecDecodeBaseSampler, SpecDecodeStochasticBaseSampler)
														
 
															-from aphrodite.modeling.layers.typical_acceptance_sampler import \
														
 
															-    TypicalAcceptanceSampler
														
 
															+from aphrodite.modeling.layers.typical_acceptance_sampler import (
														
 
															+    TypicalAcceptanceSampler)
														
 
															 from aphrodite.spec_decode.batch_expansion import BatchExpansionTop1Scorer
														
 
															 from aphrodite.spec_decode.draft_model_runner import TP1DraftModelRunner
														
 
															 from aphrodite.spec_decode.interfaces import (SpeculativeProposals,
														
@@ -28,8 +28,8 @@ from aphrodite.spec_decode.mlp_speculator_worker import MLPSpeculatorWorker
 
															 from aphrodite.spec_decode.multi_step_worker import MultiStepWorker
														
 
															 from aphrodite.spec_decode.ngram_worker import NGramWorker
														
 
															 from aphrodite.spec_decode.proposer_worker_base import ProposerWorkerBase
														
 
															-from aphrodite.spec_decode.smaller_tp_proposer_worker import \
														
 
															-    SmallerTpProposerWorker
														
 
															+from aphrodite.spec_decode.smaller_tp_proposer_worker import (
														
 
															+    SmallerTpProposerWorker)
														
 
															 from aphrodite.spec_decode.target_model_runner import TargetModelRunner
														
 
															 from aphrodite.spec_decode.util import (Timer, create_sequence_group_output,
														
 
															                                         get_all_num_logprobs,
														
--- a/aphrodite/task_handler/model_runner.py
+++ b/aphrodite/task_handler/model_runner.py
@@ -53,8 +53,8 @@ from aphrodite.multimodal import (MULTIMODAL_REGISTRY, BatchedTensorInputs,
 
															                                   MultiModalInputs)
														
 
															 from aphrodite.prompt_adapter.layers import PromptAdapterMapping
														
 
															 from aphrodite.prompt_adapter.request import PromptAdapterRequest
														
 
															-from aphrodite.prompt_adapter.worker_manager import \
														
 
															-    LRUCacheWorkerPromptAdapterManager
														
 
															+from aphrodite.prompt_adapter.worker_manager import (
														
 
															+    LRUCacheWorkerPromptAdapterManager)
														
 
															 from aphrodite.task_handler.model_runner_base import (
														
 
															     ModelRunnerBase, ModelRunnerInputBase, ModelRunnerInputBuilderBase,
														
 
															     _add_attn_metadata_broadcastable_dict,
														
--- a/aphrodite/transformers_utils/config.py
+++ b/aphrodite/transformers_utils/config.py
@@ -5,8 +5,8 @@ from typing import Dict, Optional, Type, Union
 
															 from loguru import logger
														
 
															 from transformers import GenerationConfig, PretrainedConfig
														
 
															-from transformers.models.auto.modeling_auto import \
														
 
															-    MODEL_FOR_CAUSAL_LM_MAPPING_NAMES
														
 
															+from transformers.models.auto.modeling_auto import (
														
 
															+    MODEL_FOR_CAUSAL_LM_MAPPING_NAMES)
														
 
															 from aphrodite.transformers_utils.configs import (ChatGLMConfig, DbrxConfig,
														
 
															                                                   InternVLChatConfig,
														
--- a/aphrodite/transformers_utils/configs/__init__.py
+++ b/aphrodite/transformers_utils/configs/__init__.py
@@ -7,8 +7,8 @@ from aphrodite.transformers_utils.configs.falcon import RWConfig
 
															 from aphrodite.transformers_utils.configs.internvl import InternVLChatConfig
														
 
															 from aphrodite.transformers_utils.configs.jais import JAISConfig
														
 
															 from aphrodite.transformers_utils.configs.medusa import MedusaConfig
														
 
															-from aphrodite.transformers_utils.configs.mlp_speculator import \
														
 
															-    MLPSpeculatorConfig
														
 
															+from aphrodite.transformers_utils.configs.mlp_speculator import (
														
 
															+    MLPSpeculatorConfig)
														
 
															 from aphrodite.transformers_utils.configs.mpt import MPTConfig
														
 
															 __all__ = [
														
--- a/aphrodite/transformers_utils/detokenizer.py
+++ b/aphrodite/transformers_utils/detokenizer.py
@@ -4,8 +4,8 @@ from transformers import PreTrainedTokenizer, PreTrainedTokenizerFast
 
															 from aphrodite.common.sequence import (Logprob, SamplingParams, Sequence,
														
 
															                                        SequenceGroup)
														
 
															-from aphrodite.transformers_utils.tokenizer_group.base_tokenizer_group import \
														
 
															-    BaseTokenizerGroup
														
 
															+from aphrodite.transformers_utils.tokenizer_group.base_tokenizer_group import (
														
 
															+    BaseTokenizerGroup)
														
 
															 # Used eg. for marking rejected tokens in spec decoding.
														
 
															 INVALID_TOKEN_ID = -1
														
--- a/aphrodite/transformers_utils/tokenizer_group/__init__.py
+++ b/aphrodite/transformers_utils/tokenizer_group/__init__.py
@@ -8,8 +8,8 @@ from .base_tokenizer_group import AnyTokenizer, BaseTokenizerGroup
 
															 from .tokenizer_group import TokenizerGroup
														
 
															 if ray:
														
 
															-    from aphrodite.transformers_utils.tokenizer_group.ray_tokenizer_group import \
														
 
															-        RayTokenizerGroupPool  # noqa E501
														
 
															+    from aphrodite.transformers_utils.tokenizer_group.ray_tokenizer_group import (  # noqa E501
														
 
															+        RayTokenizerGroupPool)
														
 
															 else:
														
 
															     RayTokenizerGroupPool = None  # type: ignore
														
--- a/aphrodite/transformers_utils/tokenizer_group/ray_tokenizer_group.py
+++ b/aphrodite/transformers_utils/tokenizer_group/ray_tokenizer_group.py
@@ -15,10 +15,10 @@ from transformers import PreTrainedTokenizer
 
															 from aphrodite.common.config import TokenizerPoolConfig
														
 
															 from aphrodite.executor.ray_utils import ray
														
 
															 from aphrodite.lora.request import LoRARequest
														
 
															-from aphrodite.transformers_utils.tokenizer_group.base_tokenizer_group import \
														
 
															-    BaseTokenizerGroup
														
 
															-from aphrodite.transformers_utils.tokenizer_group.tokenizer_group import \
														
 
															-    TokenizerGroup
														
 
															+from aphrodite.transformers_utils.tokenizer_group.base_tokenizer_group import (
														
 
															+    BaseTokenizerGroup)
														
 
															+from aphrodite.transformers_utils.tokenizer_group.tokenizer_group import (
														
 
															+    TokenizerGroup)
														
 
															 class RayTokenizerGroupPool(BaseTokenizerGroup):
														
--- a/aphrodite/triton_utils/__init__.py
+++ b/aphrodite/triton_utils/__init__.py
@@ -4,8 +4,8 @@ __all__ = ["HAS_TRITON"]
 
															 if HAS_TRITON:
														
 
															-    from aphrodite.triton_utils.custom_cache_manager import \
														
 
															-        maybe_set_triton_cache_manager
														
 
															+    from aphrodite.triton_utils.custom_cache_manager import (
														
 
															+        maybe_set_triton_cache_manager)
														
 
															     from aphrodite.triton_utils.libentry import libentry
														
 
															     __all__ += ["maybe_set_triton_cache_manager", "libentry"]
														
--- a/examples/aphrodite_engine_example.py
+++ b/examples/aphrodite_engine_example.py
@@ -1,6 +1,6 @@
 
															 import argparse
														
 
															-from aphrodite import EngineArgs, AphroditeEngine, SamplingParams
														
 
															+from aphrodite import AphroditeEngine, EngineArgs, SamplingParams
														
 
															 def main(args: argparse.Namespace):
														
@@ -12,14 +12,16 @@ def main(args: argparse.Namespace):
 
															     test_prompts = [
														
 
															         ("<|system|>Enter chat mode.<|user|>Hello!<|model|>",
														
 
															          SamplingParams(temperature=0.0)),
														
 
															-        ("<|system|>Enter RP mode.<|model|>Hello!<|user|>What are you doing?<|model|>",
														
 
															-         SamplingParams(temperature=0.8, top_k=5, presence_penalty=0.2)),
														
 
															-        ("<|system|>Enter chat mode.<|user|>What is the meaning of life?<|model|>",
														
 
															-         SamplingParams(n=2,
														
 
															-                        best_of=5,
														
 
															-                        temperature=0.8,
														
 
															-                        top_p=0.95,
														
 
															-                        frequency_penalty=0.1)),
														
 
															+        (
														
 
															+            "<|system|>Enter RP mode.<|model|>Hello!<|user|>What are you doing?<|model|>",  # noqa: E501
														
 
															+            SamplingParams(temperature=0.8, top_k=5, presence_penalty=0.2)),
														
 
															+        (
														
 
															+            "<|system|>Enter chat mode.<|user|>What is the meaning of life?<|model|>",  # noqa: E501
														
 
															+            SamplingParams(n=2,
														
 
															+                           best_of=5,
														
 
															+                           temperature=0.8,
														
 
															+                           top_p=0.95,
														
 
															+                           frequency_penalty=0.1)),
														
 
															         ("<|system|>Enter QA mode.<|user|>What is a man?<|model|>A miserable",
														
 
															          SamplingParams(n=3, best_of=3, use_beam_search=True,
														
 
															                         temperature=0.0)),
														
@@ -48,4 +50,4 @@ if __name__ == '__main__':
 
															         description='Demo on using the AphroditeEngine class directly')
														
 
															     parser = EngineArgs.add_cli_args(parser)
														
 
															     args = parser.parse_args()
														
 
															-    main(args)
														
 
															+    main(args)
														
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -41,6 +41,8 @@ ignore = [
 
															     "E731",
														
 
															     # Loop control variable not used within loop body
														
 
															     "B007",
														
 
															+    # f-strings in logger
														
 
															+    "G004",
														
 
															 ]
														
 
															 [tool.codespell]
														
--- a/tests/benchmarks/kernels/marlin.py
+++ b/tests/benchmarks/kernels/marlin.py
@@ -14,8 +14,8 @@ from aphrodite.quantization.utils.marlin_utils import (
 
															     GPTQ_MARLIN_SUPPORTED_GROUP_SIZES, GPTQ_MARLIN_SUPPORTED_NUM_BITS)
														
 
															 from aphrodite.quantization.utils.marlin_utils_test import (MarlinWorkspace,
														
 
															                                                             marlin_quantize)
														
 
															-from aphrodite.quantization.utils.marlin_utils_test_24 import \
														
 
															-    marlin_24_quantize
														
 
															+from aphrodite.quantization.utils.marlin_utils_test_24 import (
														
 
															+    marlin_24_quantize)
														
 
															 from aphrodite.quantization.utils.quant_utils import (gptq_pack,
														
 
															                                                       quantize_weights,
														
 
															                                                       sort_weights)