.. |
attention
|
0d3562a7f9
MQA in triton FA
|
7 місяців тому |
common
|
f22b700ee4
feat: marlin kernels for GPTQ (#547)
|
7 місяців тому |
distributed
|
ac5b4b6aa7
broadcast metadata through cpu
|
7 місяців тому |
endpoints
|
46159b107a
formatting: pt1
|
8 місяців тому |
engine
|
b1555eb208
add new grafana metrics
|
7 місяців тому |
executor
|
fb982981ce
num_lookahead_slots in neuron and ray executors
|
7 місяців тому |
kv_quant
|
e42a78381a
feat: switch from pylint to ruff (#322)
|
1 рік тому |
lora
|
e87c32bed3
feat: full tensor parallel for LoRA layers (#545)
|
7 місяців тому |
modeling
|
639e48e47d
fix: mistral nemo
|
7 місяців тому |
processing
|
aed64884c6
feat: prompt logprobs with chunked prefill (#539)
|
7 місяців тому |
quantization
|
ac5b4b6aa7
broadcast metadata through cpu
|
7 місяців тому |
spec_decode
|
9d81716bfd
[v0.5.3] Release Candidate (#388)
|
10 місяців тому |
task_handler
|
aed64884c6
feat: prompt logprobs with chunked prefill (#539)
|
7 місяців тому |
transformers_utils
|
3bbfd65549
feat: support hub model ID when offline
|
7 місяців тому |
__init__.py
|
199e776722
chore: move ray utils to executor dir
|
8 місяців тому |
py.typed
|
1c988a48b2
fix logging and add py.typed
|
1 рік тому |