david/aphrodite-engine: PygmalionAI's large-scale inference engine pygmalion.chat It is designed to serve as the inference endpoint for the PygmalionAI website, and to allow serving the Pygmalion models to a large number of users with blazing fast speeds (thanks to vLLM's Paged Attention). @ ec5b99d075c728d0ab4188ce1f277d24b45d389c

AlpinDale 39b36efabf fix: mixtral fp8 ckpt loading		преди 7 месеца
..
compressed_tensors	90bafca8e3 fix: cuda graphs with sparseml quants	преди 7 месеца
gguf_utils	9d81716bfd [v0.5.3] Release Candidate (#388)	преди 10 месеца
__init__.py	690110a051 feat: bitsandbytes quantization	преди 7 месеца
aqlm.py	2649f3f14e aqlm works on pascal	преди 7 месеца
autoquant.py	0307da9e15 refactor: bitsandbytes -> autoquant	преди 7 месеца
awq.py	c66b1b57b1 Marlin 2:4 sparsity (#555)	преди 7 месеца
base_config.py	c66b1b57b1 Marlin 2:4 sparsity (#555)	преди 7 месеца
bitsandbytes.py	690110a051 feat: bitsandbytes quantization	преди 7 месеца
deepspeedfp.py	4acf34417a feat: add DeepSpeedFP quantization for all models	преди 7 месеца
eetq.py	b178ae4b4a chore: generalize linear_method to be quant_method (#540)	преди 8 месеца
exl2.py	b178ae4b4a chore: generalize linear_method to be quant_method (#540)	преди 8 месеца
fp8.py	39b36efabf fix: mixtral fp8 ckpt loading	преди 7 месеца
gguf.py	b178ae4b4a chore: generalize linear_method to be quant_method (#540)	преди 8 месеца
gptq.py	c66b1b57b1 Marlin 2:4 sparsity (#555)	преди 7 месеца
gptq_marlin.py	5cedee9024 fix gemma with gptq marlin	преди 7 месеца
gptq_marlin_24.py	f6250c5516 move dockerfiles to root; fix cpu build	преди 7 месеца
hadamard.safetensors	9d81716bfd [v0.5.3] Release Candidate (#388)	преди 10 месеца
marlin.py	c66b1b57b1 Marlin 2:4 sparsity (#555)	преди 7 месеца
quip.py	c66b1b57b1 Marlin 2:4 sparsity (#555)	преди 7 месеца
quip_utils.py	9d81716bfd [v0.5.3] Release Candidate (#388)	преди 10 месеца
schema.py	9d81716bfd [v0.5.3] Release Candidate (#388)	преди 10 месеца
squeezellm.py	f6250c5516 move dockerfiles to root; fix cpu build	преди 7 месеца