.. |
attention
|
1270b5567e
triton compile error for flash_attn
|
преди 9 месеца |
common
|
fcfb72af24
Support arbitrary model in GGUF. (#381)
|
преди 9 месеца |
distributed
|
b1caee23a6
cache the p2p access check for memory saving
|
преди 9 месеца |
endpoints
|
b1caee23a6
cache the p2p access check for memory saving
|
преди 9 месеца |
engine
|
bd0ddf1cfe
feat: EETQ quantization (#408)
|
преди 9 месеца |
executor
|
373e0d3c01
fix neuron
|
преди 9 месеца |
kv_quant
|
e42a78381a
feat: switch from pylint to ruff (#322)
|
преди 10 месеца |
lora
|
fe17712f29
fully working chunked prefill
|
преди 9 месеца |
modeling
|
fcfb72af24
Support arbitrary model in GGUF. (#381)
|
преди 9 месеца |
processing
|
fe17712f29
fully working chunked prefill
|
преди 9 месеца |
spec_decode
|
4d33ce60da
feat: Triton flash attention backend for ROCm (#407)
|
преди 9 месеца |
task_handler
|
6e0761ba5d
make init_distributed_environment compatible with init_process_group
|
преди 9 месеца |
transformers_utils
|
c18bf116da
fix stop strings not being excluded from outputs
|
преди 9 месеца |
__init__.py
|
c2aaaefd57
allow out-of-tree model registry
|
преди 9 месеца |
py.typed
|
1c988a48b2
fix logging and add py.typed
|
преди 1 година |