david/aphrodite-engine: PygmalionAI's large-scale inference engine pygmalion.chat It is designed to serve as the inference endpoint for the PygmalionAI website, and to allow serving the Pygmalion models to a large number of users with blazing fast speeds (thanks to vLLM's Paged Attention). @ ed6717d0c064a1cbf0fe9f358008ffc43e20187a

AlpinDale ba371fbbbd feat: AWQ marlin kernels (#603)		vor 5 Monaten
..
fused_moe	9be43994fe feat: fbgemm quantization support (#601)	vor 5 Monaten
mamba	2dfa4e47e6 chore: set seed for dummy weights init	vor 5 Monaten
ops	fca911ee0a vLLM Upstream Sync (#526)	vor 7 Monaten
__init__.py	07aa2a492f upstream: add option to specify tokenizer	vor 1 Jahr
activation.py	c0c336aaa3 refactor: registry for processing model inputs; quick_gelu; clip model support	vor 6 Monaten
layernorm.py	5761ef8c35 feat: gemma-2 support	vor 5 Monaten
linear.py	ba371fbbbd feat: AWQ marlin kernels (#603)	vor 5 Monaten
logits_processor.py	5761ef8c35 feat: gemma-2 support	vor 5 Monaten
pooler.py	be8154a8a0 feat: proper embeddings API with e5-mistral-7b support	vor 6 Monaten
rejection_sampler.py	2c653a2268 fix: make speculative decoding work with per-request seed	vor 5 Monaten
rotary_embedding.py	5761ef8c35 feat: gemma-2 support	vor 5 Monaten
sampler.py	dd18c5042c move prepare_inputs to the GPU (#596)	vor 5 Monaten
spec_decode_base_sampler.py	2c653a2268 fix: make speculative decoding work with per-request seed	vor 5 Monaten
typical_acceptance_sampler.py	2c653a2268 fix: make speculative decoding work with per-request seed	vor 5 Monaten
vocab_parallel_embedding.py	9be43994fe feat: fbgemm quantization support (#601)	vor 5 Monaten