AlpinDale
|
e42a78381a
feat: switch from pylint to ruff (#322)
|
há 10 meses atrás |
AlpinDale
|
c2d77b1822
chore: logging refactor (#302)
|
há 10 meses atrás |
AlpinDale
|
9810daa699
feat: INT8 KV Cache (#298)
|
há 10 meses atrás |
AlpinDale
|
2d3d44b3e9
chore: add health check for ray workers (#290)
|
há 10 meses atrás |
AlpinDale
|
ac82b67f75
feat: naive context shift and various QoL changes (#289)
|
há 10 meses atrás |
AlpinDale
|
657aec0cbd
refactor: OpenAI endpoint (#261)
|
há 10 meses atrás |
AlpinDale
|
4b80b42362
fix: memory leaks due to nccl cuda graphs (#275)
|
há 11 meses atrás |
AlpinDale
|
2c08aa5af4
chore: remove eos token from output (#272)
|
há 11 meses atrás |
AlpinDale
|
ea0f57b233
feat: allow further support for non-cuda devices (#247)
|
há 11 meses atrás |
AlpinDale
|
d2db4143fa
feat: add grafana for metrics (#240)
|
há 11 meses atrás |
AlpinDale
|
31c95011a6
feat: FP8 E5M2 KV Cache (#226)
|
há 1 ano atrás |
AlpinDale
|
641bb0f6e9
feat: add custom allreduce kernels (#224)
|
há 1 ano atrás |
AlpinDale
|
c0aac15421
feat: S-LoRA support (#222)
|
há 1 ano atrás |
AlpinDale
|
8fa608aeb7
feat: replace Ray with NCCL for control plane comms (#221)
|
há 1 ano atrás |
AlpinDale
|
15a0454172
feat: FP8 KV Cache (#185)
|
há 1 ano atrás |
AlpinDale
|
b9b295d74e
chore: backlogs 1 (#191)
|
há 1 ano atrás |
AlpinDale
|
17cdc5ac23
yapf
|
há 1 ano atrás |
KaraKaraWitch
|
9a0b5a197d
fix: set CPU Affinity (#187)
|
há 1 ano atrás |
AlpinDale
|
7d91e9e0f2
feat: CUDA graphs (#172)
|
há 1 ano atrás |
AlpinDale
|
6c50f5b067
chore: include stop strings in output (#168)
|
há 1 ano atrás |
AlpinDale
|
980673ffb7
fix: fractional gpus (#157)
|
há 1 ano atrás |
AlpinDale
|
81e7981dce
feat: add prometheus production metrics (#154)
|
há 1 ano atrás |
AlpinDale
|
653da510d1
chore: rewrite InputMetadata (#143)
|
há 1 ano atrás |
AlpinDale
|
6c914ea0e4
fix: `SequenceOutputs` -> `SequenceOutput` (#133)
|
há 1 ano atrás |
AlpinDale
|
1aab8a7d6f
feat: speedup compilation times by 3x (#130)
|
há 1 ano atrás |
AlpinDale
|
237d2ec28d
fix: CPU OOM for large models (#128)
|
há 1 ano atrás |
AlpinDale
|
f49cb1ffe1
fix: duplication in engine step (#120)
|
há 1 ano atrás |
AlpinDale
|
8834ecf9de
chore: clean up refactor endpoints (#98)
|
há 1 ano atrás |
AlpinDale
|
e113f3e9bf
feat: spaces between special tokens (#94)
|
há 1 ano atrás |
50h100a
|
fa0ae5a2c9
feat: new mirostatv2 implementation (#96)
|
há 1 ano atrás |