david/aphrodite-engine: PygmalionAI's large-scale inference engine pygmalion.chat It is designed to serve as the inference endpoint for the PygmalionAI website, and to allow serving the Pygmalion models to a large number of users with blazing fast speeds (thanks to vLLM's Paged Attention). @ dcb36de9c4faad5b5ff146f13bbf6fb73b228def

AlpinDale dcb36de9c4 quants: add support for NVIDIA's ModelOpt checkpoints (#1013)		2 månader sedan
..
__init__.py	07aa2a492f upstream: add option to specify tokenizer	1 år sedan
block.py	7df7b8ca53 optimization: reduce end-to-end overhead from python obj allocation (#666)	6 månader sedan
config.py	dcb36de9c4 quants: add support for NVIDIA's ModelOpt checkpoints (#1013)	2 månader sedan
connections.py	f1d0b77c92 [0.6.0] Release Candidate (#481)	6 månader sedan
envs.py	0e5cf7f840 tpu: avoid dynamo guard eval overhead (#949)	2 månader sedan
grammar.py	8a71788372 Add OLMoE (#772)	5 månader sedan
logger.py	22a4cd4595 core: fix spec decode metrics and envs circular import (#889)	2 månader sedan
logits_processor.py	8a71788372 Add OLMoE (#772)	5 månader sedan
outputs.py	0e558e9b2f fix: loading chameleon model with TP>1 (#695)	6 månader sedan
pooling_params.py	2f61644f6e SPMD optimizations (#824)	3 månader sedan
sampling_params.py	8d9f1fd4e6 feat: add single user mode (#927)	2 månader sedan
sequence.py	09dab16f82 core: improve async postproc + multi-step performance (#983)	2 månader sedan
test_utils.py	8a71788372 Add OLMoE (#772)	5 månader sedan
utils.py	f1ea7711bd core: do not compile ScalarType for torch < 2.4.0 (#938)	2 månader sedan