AlpinDale
|
50b7c13db0
refactor: attention selector (#552)
|
7 luni în urmă |
AlpinDale
|
fd0a5c0ea4
raise a warning during preemption and swapping
|
7 luni în urmă |
AlpinDale
|
b984fe4a91
refactor custom allreduce to support multiple tp groups
|
7 luni în urmă |
AlpinDale
|
54a4cef647
add bias and tie word embedding support for llama
|
7 luni în urmă |
AlpinDale
|
be8154a8a0
feat: proper embeddings API with e5-mistral-7b support
|
7 luni în urmă |
AlpinDale
|
47a5c5c00c
don't check the full nvlink connectivity
|
8 luni în urmă |
AlpinDale
|
16f345c29a
fix circular reference with weakref
|
8 luni în urmă |
AlpinDale
|
b746fb5562
fix a few warnings on the cpu kernels
|
8 luni în urmă |
AlpinDale
|
8ae2cce237
refactor pynccl
|
8 luni în urmă |
AlpinDale
|
251568470e
initial nvidia fp8 e4m3 for kv cache
|
8 luni în urmă |
AlpinDale
|
c4c153863e
improve fp8 linear layer performance
|
8 luni în urmă |
AlpinDale
|
4acf34417a
feat: add DeepSpeedFP quantization for all models
|
8 luni în urmă |
AlpinDale
|
1e35cef979
feat: add arctic snowflake model (#551)
|
8 luni în urmă |
AlpinDale
|
e3f2ea4850
make punica kernels work with rocm
|
8 luni în urmă |
AlpinDale
|
0e062e66d3
set block size at init
|
8 luni în urmă |
AlpinDale
|
7e6b309f89
tok/s in llm class
|
8 luni în urmă |
AlpinDale
|
18eeddf241
align gptq_marlin outputs with gptq
|
8 luni în urmă |
AlpinDale
|
6e63d7a9db
fix memory usage with ngram spec decoding
|
8 luni în urmă |
AlpinDale
|
197a6d2c16
auto disable speculative decoding by the running queue size
|
8 luni în urmă |
AlpinDale
|
d11d68f4e6
switch to vllm-flash-attn
|
8 luni în urmă |
AlpinDale
|
8b56dc4347
dict -> torch.Tensor for blocks_to_swap
|
8 luni în urmă |
AlpinDale
|
b55381df0e
speedup lora loading times by resuing the cpu dummy lora
|
8 luni în urmă |
AlpinDale
|
3a0d1c7705
add get_name method to attention backends
|
8 luni în urmă |
AlpinDale
|
c3065aefaf
non-power-of-2 for prefix prefill with alibi
|
8 luni în urmă |
AlpinDale
|
c5066558a1
add dtype to cos sin cache casting
|
8 luni în urmă |
AlpinDale
|
d287afd917
optimize get_logprobs
|
8 luni în urmă |
AlpinDale
|
92cb5b42d9
support both cpu and device tensor in broadcast tensor dict
|
8 luni în urmă |
AlpinDale
|
438f5bdce9
fix ngrams
|
8 luni în urmă |
AlpinDale
|
148aca8ff1
cow => dict[int, list] -> list
|
8 luni în urmă |
AlpinDale
|
21ce19b3ea
blocks_to_copy dict -> torch.Tensor
|
8 luni în urmă |