2 months ago · 53d0ba7c7c
--- a/aphrodite/endpoints/openai/api_server.py
+++ b/aphrodite/endpoints/openai/api_server.py
@@ -10,9 +10,11 @@ from argparse import Namespace
 
															 from contextlib import asynccontextmanager
														
 
															 from distutils.util import strtobool
														
 
															 from http import HTTPStatus
														
 
															-from typing import AsyncGenerator, AsyncIterator, List, Optional, Set, Tuple
														
 
															+from typing import (Any, AsyncGenerator, AsyncIterator, Dict, List, Optional,
														
 
															+                    Set, Tuple)
														
 
															-from fastapi import APIRouter, FastAPI, Request
														
 
															+import yaml
														
 
															+from fastapi import APIRouter, FastAPI, Request, UploadFile
														
 
															 from fastapi.exceptions import RequestValidationError
														
 
															 from fastapi.middleware.cors import CORSMiddleware
														
 
															 from fastapi.responses import (HTMLResponse, JSONResponse, Response,
														
@@ -79,6 +81,7 @@ kobold_lite_ui = ""
 
															 sampler_json = ""
														
 
															 gen_cache: dict = {}
														
 
															 prometheus_multiproc_dir: tempfile.TemporaryDirectory
														
 
															+model_is_loaded = True
														
 
															 _running_tasks: Set[asyncio.Task] = set()
														
@@ -225,6 +228,143 @@ def mount_metrics(app: FastAPI):
 
															     app.routes.append(metrics_route)
														
 
															+@router.delete("/v1/model/unload")
														
 
															+async def unload_model(request: Request):
														
 
															+    """Unload the current model and shut down the server."""
														
 
															+    logger.info("Received request to unload model.")
														
 
															+
														
 
															+    try:
														
 
															+        args = request.app.state.args
														
 
															+        if not args.disable_frontend_multiprocessing:
														
 
															+            await async_engine_client.kill()
														
 
															+        else:
														
 
															+            await async_engine_client.shutdown_background_loop()
														
 
															+
														
 
															+        global model_is_loaded
														
 
															+        model_is_loaded = False
														
 
															+        return JSONResponse(
														
 
															+            content={
														
 
															+                "status": "success",
														
 
															+                "message": "Model unloaded successfully"
														
 
															+            }
														
 
															+        )
														
 
															+
														
 
															+    except Exception as e:
														
 
															+        error_msg = f"Error while unloading model: {str(e)}"
														
 
															+        logger.error(error_msg)
														
 
															+        return JSONResponse(
														
 
															+            content={"status": "error", "message": error_msg},
														
 
															+            status_code=500
														
 
															+        )
														
 
															+
														
 
															+
														
 
															+@router.post("/v1/model/load")
														
 
															+async def load_model(config_file: UploadFile):
														
 
															+    """Load a model using a YAML configuration file."""
														
 
															+    global model_is_loaded, async_engine_client, engine_args
														
 
															+
														
 
															+    if model_is_loaded:
														
 
															+        return JSONResponse(
														
 
															+            content={
														
 
															+                "error": {
														
 
															+                    "message": "A model is already loaded. "
														
 
															+                    "Please unload it first.",
														
 
															+                    "type": "invalid_request_error",
														
 
															+                    "code": "model_already_loaded"
														
 
															+                }
														
 
															+            },
														
 
															+            status_code=400
														
 
															+        )
														
 
															+
														
 
															+    try:
														
 
															+        # basically the same logic as the one in aphrodite.endpoints.cli
														
 
															+        config_text = await config_file.read()
														
 
															+        config: Dict[Any, Any] = yaml.safe_load(config_text)
														
 
															+
														
 
															+        args = []
														
 
															+        for key, value in config.items():
														
 
															+            key = key.replace('_', '-')
														
 
															+
														
 
															+            if isinstance(value, bool):
														
 
															+                if value:
														
 
															+                    args.append(f"--{key}")
														
 
															+            elif isinstance(value, (list, tuple)):
														
 
															+                if key in ['lora-modules', 'prompt-adapters']:
														
 
															+                    for item in value:
														
 
															+                        args.append(f"--{key}")
														
 
															+                        args.append(f"{item['name']}={item['path']}")
														
 
															+                else:
														
 
															+                    for item in value:
														
 
															+                        args.append(f"--{key}")
														
 
															+                        args.append(str(item))
														
 
															+            else:
														
 
															+                args.append(f"--{key}")
														
 
															+                args.append(str(value))
														
 
															+
														
 
															+        parser = FlexibleArgumentParser()
														
 
															+        parser = make_arg_parser(parser)
														
 
															+        parsed_args = parser.parse_args(args)
														
 
															+
														
 
															+        if (model_is_embedding(parsed_args.model, parsed_args.trust_remote_code)
														
 
															+                or parsed_args.disable_frontend_multiprocessing):
														
 
															+            async_engine_client = AsyncAphrodite.from_engine_args(engine_args)
														
 
															+            await async_engine_client.setup()
														
 
															+        else:
														
 
															+            if "PROMETHEUS_MULTIPROC_DIR" not in os.environ:
														
 
															+                global prometheus_multiproc_dir
														
 
															+                prometheus_multiproc_dir = tempfile.TemporaryDirectory()
														
 
															+                os.environ[
														
 
															+                    "PROMETHEUS_MULTIPROC_DIR"] = prometheus_multiproc_dir.name
														
 
															+
														
 
															+            rpc_path = get_open_zmq_ipc_path()
														
 
															+            logger.info(
														
 
															+                f"Multiprocessing frontend to use {rpc_path} for RPC Path.")
														
 
															+
														
 
															+            rpc_client = AsyncEngineRPCClient(rpc_path)
														
 
															+            async_engine_client = rpc_client
														
 
															+
														
 
															+            context = multiprocessing.get_context("spawn")
														
 
															+            rpc_server_process = context.Process(
														
 
															+                target=run_rpc_server,
														
 
															+                args=(engine_args, rpc_path))
														
 
															+            rpc_server_process.start()
														
 
															+            logger.info(
														
 
															+                f"Started engine process with PID {rpc_server_process.pid}")
														
 
															+
														
 
															+            while True:
														
 
															+                try:
														
 
															+                    await async_engine_client.setup()
														
 
															+                    break
														
 
															+                except TimeoutError as e:
														
 
															+                    if not rpc_server_process.is_alive():
														
 
															+                        raise RuntimeError(
														
 
															+                            "RPC Server died before responding to readiness "
														
 
															+                            "probe") from e
														
 
															+
														
 
															+        app = await init_app(async_engine_client, parsed_args)  # noqa: F841
														
 
															+        model_is_loaded = True
														
 
															+
														
 
															+        return JSONResponse(
														
 
															+            content={
														
 
															+                "status": "success",
														
 
															+                "message": "Model loaded successfully"
														
 
															+            }
														
 
															+        )
														
 
															+
														
 
															+    except Exception as e:
														
 
															+        error_msg = f"Error while loading model: {str(e)}"
														
 
															+        logger.error(error_msg)
														
 
															+        return JSONResponse(
														
 
															+            content={
														
 
															+                "error": {
														
 
															+                    "message": error_msg,
														
 
															+                    "type": "invalid_request_error",
														
 
															+                    "code": "model_load_error"
														
 
															+                }
														
 
															+            },
														
 
															+            status_code=500
														
 
															+        )
														
 
															+
														
 
															 @router.get("/health")
														
 
															 async def health() -> Response:
														
 
															     """Health check."""
														
@@ -234,6 +374,14 @@ async def health() -> Response:
 
															 @router.post("/v1/tokenize")
														
 
															 async def tokenize(request: TokenizeRequest):
														
 
															+    if not model_is_loaded:
														
 
															+        return JSONResponse(
														
 
															+            content={
														
 
															+                "status": "error",
														
 
															+                "message": "No model loaded."
														
 
															+            },
														
 
															+            status_code=500
														
 
															+        )
														
 
															     generator = await openai_serving_tokenization.create_tokenize(request)
														
 
															     if isinstance(generator, ErrorResponse):
														
 
															         return JSONResponse(content=generator.model_dump(),
														
@@ -245,6 +393,14 @@ async def tokenize(request: TokenizeRequest):
 
															 @router.post("/v1/detokenize")
														
 
															 async def detokenize(request: DetokenizeRequest):
														
 
															+    if not model_is_loaded:
														
 
															+        return JSONResponse(
														
 
															+            content={
														
 
															+                "status": "error",
														
 
															+                "message": "No model loaded."
														
 
															+            },
														
 
															+            status_code=500
														
 
															+        )
														
 
															     generator = await openai_serving_tokenization.create_detokenize(request)
														
 
															     if isinstance(generator, ErrorResponse):
														
 
															         return JSONResponse(content=generator.model_dump(),
														
@@ -300,6 +456,14 @@ async def serviceinfo():
 
															 @router.post("/v1/chat/completions")
														
 
															 async def create_chat_completion(request: ChatCompletionRequest,
														
 
															                                  raw_request: Request):
														
 
															+    if not model_is_loaded:
														
 
															+        return JSONResponse(
														
 
															+            content={
														
 
															+                "status": "error",
														
 
															+                "message": "No model loaded."
														
 
															+            },
														
 
															+            status_code=500
														
 
															+        )
														
 
															     generator = await openai_serving_chat.create_chat_completion(
														
 
															         request, raw_request)
														
 
															     if isinstance(generator, ErrorResponse):
														
@@ -315,6 +479,14 @@ async def create_chat_completion(request: ChatCompletionRequest,
 
															 @router.post("/v1/completions")
														
 
															 async def create_completion(request: CompletionRequest, raw_request: Request):
														
 
															+    if not model_is_loaded:
														
 
															+        return JSONResponse(
														
 
															+            content={
														
 
															+                "status": "error",
														
 
															+                "message": "No model loaded."
														
 
															+            },
														
 
															+            status_code=500
														
 
															+        )
														
 
															     generator = await openai_serving_completion.create_completion(
														
 
															         request, raw_request)
														
 
															     if isinstance(generator, ErrorResponse):
														
@@ -329,6 +501,14 @@ async def create_completion(request: CompletionRequest, raw_request: Request):
 
															 @router.post("/v1/embeddings")
														
 
															 async def create_embedding(request: EmbeddingRequest, raw_request: Request):
														
 
															+    if not model_is_loaded:
														
 
															+        return JSONResponse(
														
 
															+            content={
														
 
															+                "status": "error",
														
 
															+                "message": "No model loaded."
														
 
															+            },
														
 
															+            status_code=500
														
 
															+        )
														
 
															     generator = await openai_serving_embedding.create_embedding(
														
 
															         request, raw_request)
														
 
															     if isinstance(generator, ErrorResponse):
														
@@ -340,6 +520,14 @@ async def create_embedding(request: EmbeddingRequest, raw_request: Request):
 
															 @router.post("/v1/lora/load")
														
 
															 async def load_lora(lora: LoRAModulePath):
														
 
															+    if not model_is_loaded:
														
 
															+        return JSONResponse(
														
 
															+            content={
														
 
															+                "status": "error",
														
 
															+                "message": "No model loaded."
														
 
															+            },
														
 
															+            status_code=500
														
 
															+        )
														
 
															     openai_serving_completion.add_lora(lora)
														
 
															     if engine_args.enable_lora is False:
														
 
															         logger.error("LoRA is not enabled in the engine. "
														
@@ -350,12 +538,28 @@ async def load_lora(lora: LoRAModulePath):
 
															 @router.delete("/v1/lora/unload")
														
 
															 async def unload_lora(lora_name: str):
														
 
															+    if not model_is_loaded:
														
 
															+        return JSONResponse(
														
 
															+            content={
														
 
															+                "status": "error",
														
 
															+                "message": "No model loaded."
														
 
															+            },
														
 
															+            status_code=500
														
 
															+        )
														
 
															     openai_serving_completion.remove_lora(lora_name)
														
 
															     return JSONResponse(content={"status": "success"})
														
 
															 @router.post("/v1/soft_prompt/load")
														
 
															 async def load_soft_prompt(soft_prompt: PromptAdapterPath):
														
 
															+    if not model_is_loaded:
														
 
															+        return JSONResponse(
														
 
															+            content={
														
 
															+                "status": "error",
														
 
															+                "message": "No model loaded."
														
 
															+            },
														
 
															+            status_code=500
														
 
															+        )
														
 
															     openai_serving_completion.add_prompt_adapter(soft_prompt)
														
 
															     if engine_args.enable_prompt_adapter is False:
														
 
															         logger.error("Prompt Adapter is not enabled in the engine. "
														
@@ -365,6 +569,14 @@ async def load_soft_prompt(soft_prompt: PromptAdapterPath):
 
															 @router.delete("/v1/soft_prompt/unload")
														
 
															 async def unload_soft_prompt(soft_prompt_name: str):
														
 
															+    if not model_is_loaded:
														
 
															+        return JSONResponse(
														
 
															+            content={
														
 
															+                "status": "error",
														
 
															+                "message": "No model loaded."
														
 
															+            },
														
 
															+            status_code=500
														
 
															+        )
														
 
															     openai_serving_completion.remove_prompt_adapter(soft_prompt_name)
														
 
															     return JSONResponse(content={"status": "success"})
														
@@ -611,6 +823,7 @@ def build_app(args: Namespace) -> FastAPI:
 
															     app = FastAPI(lifespan=lifespan)
														
 
															     app.include_router(router)
														
 
															     app.root_path = args.root_path
														
 
															+    app.state.args = args
														
 
															     if args.launch_kobold_api:
														
 
															         logger.warning("Kobold API is now enabled by default. "
														
 
															                        "This flag will be removed in the future.")
														
@@ -659,8 +872,12 @@ def build_app(args: Namespace) -> FastAPI:
 
															             auth_header = request.headers.get("Authorization")
														
 
															             api_key_header = request.headers.get("x-api-key")
														
 
															-            if request.url.path.startswith(("/v1/lora", "/v1/soft_prompt")):
														
 
															-                if admin_key is not None and api_key_header == admin_key:
														
 
															+            if request.url.path.startswith(
														
 
															+                ("/v1/lora", "/v1/soft_prompt", "/v1/model")):
														
 
															+                if admin_key is not None and (
														
 
															+                    api_key_header == admin_key or 
														
 
															+                    auth_header == "Bearer " + admin_key
														
 
															+                ):
														
 
															                     return await call_next(request)
														
 
															                 return JSONResponse(content={"error": "Unauthorized"},
														
 
															                                     status_code=401)
														
--- a/aphrodite/endpoints/openai/rpc/__init__.py
+++ b/aphrodite/endpoints/openai/rpc/__init__.py
@@ -38,7 +38,7 @@ class RPCUtilityRequest(Enum):
 
															     GET_LORA_CONFIG = 6
														
 
															     DO_LOG_STATS = 7
														
 
															     IS_SERVER_HEALTHY = 8
														
 
															-
														
 
															+    SHUTDOWN_SERVER = 9
														
 
															 RPC_REQUEST_TYPE = Union[RPCGenerateRequest, RPCAbortRequest,
														
 
															                          RPCUtilityRequest]
														
--- a/aphrodite/endpoints/openai/rpc/client.py
+++ b/aphrodite/endpoints/openai/rpc/client.py
@@ -407,3 +407,17 @@ class AsyncEngineRPCClient:
 
															                      **kwargs) -> AsyncGenerator[EmbeddingRequestOutput, None]:
														
 
															         raise NotImplementedError(
														
 
															             "Embeddings not supported with multiprocessing backend")
														
 
															+
														
 
															+    async def kill(self):
														
 
															+        """Cleanly shut down the RPC client and engine."""
														
 
															+        try:
														
 
															+            # Send shutdown signal to RPC server
														
 
															+            await self._send_one_way_rpc_request(
														
 
															+                request=RPCUtilityRequest.SHUTDOWN_SERVER,
														
 
															+                error_message="Failed to send shutdown signal to RPC server"
														
 
															+            )
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error while shutting down RPC server: {str(e)}")
														
 
															+        finally:
														
 
															+            # Close local resources
														
 
															+            self.close()
														
--- a/aphrodite/endpoints/openai/rpc/server.py
+++ b/aphrodite/endpoints/openai/rpc/server.py
@@ -1,4 +1,5 @@
 
															 import asyncio
														
 
															+import os
														
 
															 import signal
														
 
															 from typing import Any, Coroutine, Union
														
@@ -146,6 +147,8 @@ class AsyncEngineRPCServer:
 
															                 return self.is_server_ready(identity)
														
 
															             elif request == RPCUtilityRequest.IS_SERVER_HEALTHY:
														
 
															                 return self.check_health(identity)
														
 
															+            elif request == RPCUtilityRequest.SHUTDOWN_SERVER:
														
 
															+                return self.shutdown(identity)
														
 
															             else:
														
 
															                 raise ValueError(f"Unknown RPCUtilityRequest type: {request}")
														
@@ -171,6 +174,28 @@ class AsyncEngineRPCServer:
 
															             running_tasks.add(task)
														
 
															             task.add_done_callback(running_tasks.discard)
														
 
															+    async def shutdown(self, identity):
														
 
															+        """Handle shutdown request from client."""
														
 
															+        try:
														
 
															+            # Clean shutdown of engine
														
 
															+            self.engine.shutdown_background_loop()
														
 
															+            await self.socket.send_multipart(
														
 
															+                [identity, cloudpickle.dumps(APHRODITE_RPC_SUCCESS_STR)]
														
 
															+            )
														
 
															+        except Exception as e:
														
 
															+            await self.socket.send_multipart([identity, cloudpickle.dumps(e)])
														
 
															+        finally:
														
 
															+            # Schedule server shutdown
														
 
															+            asyncio.create_task(self._delayed_shutdown())
														
 
															+    
														
 
															+    async def _delayed_shutdown(self):
														
 
															+        """Helper to shut down server after response is sent"""
														
 
															+        await asyncio.sleep(1)
														
 
															+        self.cleanup()
														
 
															+        # Force exit the process
														
 
															+        os._exit(0)
														
 
															+
														
 
															+
														
 
															 async def run_server(server: AsyncEngineRPCServer):
														
 
															     # Put the server task into the asyncio loop.
														
--- a/requirements-common.txt
+++ b/requirements-common.txt
@@ -32,3 +32,4 @@ mistral_common >= 1.5.0
 
															 protobuf
														
 
															 pandas
														
 
															 msgspec
														
 
															+python-multipart