david/aphrodite-engine: PygmalionAI's large-scale inference engine pygmalion.chat It is designed to serve as the inference endpoint for the PygmalionAI website, and to allow serving the Pygmalion models to a large number of users with blazing fast speeds (thanks to vLLM's Paged Attention). @ 1efd0f89b7351ccfc93cfb0faefa4edd7be5462f

AlpinDale ad24e74a99 feat: FP8 weight-only quantization support for Ampere GPUs		6 månader sedan
..
aqlm	156f577f79 feat: switch from `PYBIND11_MODULE` to `TORCH_LIBRARY` (#569)	7 månader sedan
autoquant	156f577f79 feat: switch from `PYBIND11_MODULE` to `TORCH_LIBRARY` (#569)	7 månader sedan
awq	156f577f79 feat: switch from `PYBIND11_MODULE` to `TORCH_LIBRARY` (#569)	7 månader sedan
compressed_tensors	156f577f79 feat: switch from `PYBIND11_MODULE` to `TORCH_LIBRARY` (#569)	7 månader sedan
cutlass_w8a8	b03b4d4c8c fix: compute cutlass 3.x epilogues in fp32 instead of 16	7 månader sedan
exl2	156f577f79 feat: switch from `PYBIND11_MODULE` to `TORCH_LIBRARY` (#569)	7 månader sedan
fp8	ad24e74a99 feat: FP8 weight-only quantization support for Ampere GPUs	6 månader sedan
gguf	9d81716bfd [v0.5.3] Release Candidate (#388)	10 månader sedan
gptq	156f577f79 feat: switch from `PYBIND11_MODULE` to `TORCH_LIBRARY` (#569)	7 månader sedan
gptq_marlin	156f577f79 feat: switch from `PYBIND11_MODULE` to `TORCH_LIBRARY` (#569)	7 månader sedan
int8_kvcache	9810daa699 feat: INT8 KV Cache (#298)	1 år sedan
marlin	1587fab5de fix: cuda version check for mma warning suppression	7 månader sedan
quip	156f577f79 feat: switch from `PYBIND11_MODULE` to `TORCH_LIBRARY` (#569)	7 månader sedan
squeezellm	156f577f79 feat: switch from `PYBIND11_MODULE` to `TORCH_LIBRARY` (#569)	7 månader sedan
quant_ops.h	ad24e74a99 feat: FP8 weight-only quantization support for Ampere GPUs	6 månader sedan