AlpinDale
|
517676249c
chore: update the compressed-tensors config
|
7 місяців тому |
AlpinDale
|
791c837c88
fix: add triton as a requirement for cpu
|
7 місяців тому |
AlpinDale
|
28e45a6209
fix: attempting to remove a lora that has already been removed
|
7 місяців тому |
AlpinDale
|
ff13d47ef3
fix: copy commands in rocm docker
|
7 місяців тому |
AlpinDale
|
ebfc5b7f83
chore: remove unused args in dockerfile
|
7 місяців тому |
AlpinDale
|
156f577f79
feat: switch from `PYBIND11_MODULE` to `TORCH_LIBRARY` (#569)
|
7 місяців тому |
AlpinDale
|
6cecbbff6a
fix: reduce memory footprint of cuda graph by adding output buffer
|
7 місяців тому |
AlpinDale
|
ab5ffb228c
fp8: `act_scale` -> `input_scale`
|
7 місяців тому |
AlpinDale
|
71a26f0998
chore: use pytorch sdpa backend to do naive attention for rocm
|
7 місяців тому |
AlpinDale
|
e9c0a248dc
fix: support check for fp8 cutlass
|
7 місяців тому |
AlpinDale
|
b2cb5a92e9
fix: missing cache_config for dbrx
|
7 місяців тому |
AlpinDale
|
7c14159702
fix: remove unused include
|
7 місяців тому |
AlpinDale
|
aba03b4756
feat: dynamic per-token activation quantization
|
7 місяців тому |
AlpinDale
|
3f92035bf1
fix: add `ignored_seq_groups` in `_schedule_chunked_prefill`
|
7 місяців тому |
AlpinDale
|
17eb1b7eb9
chore: remove ray health check
|
7 місяців тому |
AlpinDale
|
40bc98b363
chore: use cutlass kernels for fp8 if supported
|
7 місяців тому |
AlpinDale
|
1d7f5c45b0
feat: add stream_options for chat completions
|
7 місяців тому |
AlpinDale
|
c975bba905
fix: sharded state loader with lora
|
7 місяців тому |
AlpinDale
|
b9a5a0ae79
fix: avoid copying prompt/output tokens if penalties arent used
|
7 місяців тому |
AlpinDale
|
e989ddf2a1
chore: allow using multiple lora modules in llm.generate()
|
7 місяців тому |
AlpinDale
|
76d6f49bbb
fix: modelscope downloads
|
7 місяців тому |
AlpinDale
|
f2e94e2184
chore: minor llava cleanups in preparation for llava-next
|
7 місяців тому |
AlpinDale
|
fde2cda047
chore: update outlines integration from `FSM` to `Guide`
|
7 місяців тому |
AlpinDale
|
c7bddcdef1
chore: skip for logits_scale == 1.0
|
7 місяців тому |
AlpinDale
|
d7ebffe2f0
chore: re-add the graceful engine shutdown
|
7 місяців тому |
AlpinDale
|
ec5b99d075
fix: use named args
|
7 місяців тому |
AlpinDale
|
e0886ee929
feat: add `ProposerWorkerBase` abstract class
|
7 місяців тому |
AlpinDale
|
d00a7517e6
fix: tokenizer delay with using LLM class
|
7 місяців тому |
AlpinDale
|
39b36efabf
fix: mixtral fp8 ckpt loading
|
7 місяців тому |
AlpinDale
|
e32f506e17
chore: gpu arch guard for cutlass w8a8 kernels
|
7 місяців тому |