1 gadu atpakaļ · 16df1763c8
--- a/.gitignore
+++ b/.gitignore
@@ -3,4 +3,5 @@ __pycache__
 
				 repos
			
 
				 .vscode
			
 
				 *.env
			
 
				-c_cpp_properties.json
			
 
				+*egg-info
			
 
				+*.so
			
--- a/aphrodite/__init__.py
+++ b/aphrodite/__init__.py
@@ -2,7 +2,7 @@ from aphrodite.engine.args_tools import AsyncEngineArgs, EngineArgs
 
				 from aphrodite.engine.async_aphrodite import AsyncAphrodite
			
 
				 from aphrodite.engine.aphrodite import AphroditeEngine
			
 
				 from aphrodite.engine.ray_tools import initialize_cluster
			
 
				-from aphrodite.common.outputs import ChatCompletionOutput, RequestOutput
			
 
				+from aphrodite.common.outputs import CompletionOutput, RequestOutput
			
 
				 from aphrodite.common.sampling_params import SamplingParams
			
 
				 
			
 
				 __version__ = "0.0"
			
@@ -15,5 +15,5 @@ __all__ = [
 
				     "initialize_cluster",
			
 
				     "SamplingParams",
			
 
				     "RequestOutput",
			
 
				-    "ChatCompletionOutput",
			
 
				-]
			
 
				+    "CompletionOutput",
			
 
				+]
			
--- a/aphrodite/modeling/layers/attention.py
+++ b/aphrodite/modeling/layers/attention.py
@@ -13,7 +13,7 @@ from aphrodite import cache_ops
 
				 from aphrodite import pos_encoding_ops
			
 
				 from aphrodite.modeling.metadata import InputMetadata
			
 
				 
			
 
				-_SUPPORTED_HEAD_SIZES = 
			
 
				+_SUPPORTED_HEAD_SIZES = [64, 80, 96, 112, 128]
			
 
				 
			
 
				 class PagedAttention(nn.Module):
			
 
				     """GPT-style multi-head PagedAttention.
			
@@ -150,8 +150,8 @@ class PagedAttention(nn.Module):
 
				             )
			
 
				 
			
 
				             self.single_query_cached_kv_attention(
			
 
				-                output[num_prompt_tokens:num_valid_tokens]
			
 
				-                query[num_prompt_tokens:num_valid_tokens]
			
 
				+                output[num_prompt_tokens:num_valid_tokens],
			
 
				+                query[num_prompt_tokens:num_valid_tokens],
			
 
				                 key_cache,
			
 
				                 value_cache,
			
 
				                 input_metadata)