.. |
attention
|
78d66f16d1
Chunked Prefill Part 1 (#384)
|
11 tháng trước cách đây |
fused_moe
|
f8dfac6372
chore: attention refactor and upstream sync apr01 (#365)
|
11 tháng trước cách đây |
ops
|
9181fa0396
feat: Triton kernels for sampling (#383)
|
11 tháng trước cách đây |
quantization
|
f8652c8e99
fix: optimize aqlm dequantization (#325)
|
1 năm trước cách đây |
__init__.py
|
07aa2a492f
upstream: add option to specify tokenizer
|
1 năm trước cách đây |
activation.py
|
3d6695cfbb
feat: add approximate gelu activation kernels (#370)
|
11 tháng trước cách đây |
layernorm.py
|
e31c6f0b45
feat: refactor modeling logic and support more models (#274)
|
1 năm trước cách đây |
linear.py
|
e42a78381a
feat: switch from pylint to ruff (#322)
|
1 năm trước cách đây |
rejection.py
|
f8dfac6372
chore: attention refactor and upstream sync apr01 (#365)
|
11 tháng trước cách đây |
rotary_embedding.py
|
e702f587cf
feat: add batched RoPE kernels (#371)
|
11 tháng trước cách đây |
sampler.py
|
f663d3fccc
Merge pull request #397 from 50h100a/pr_samplerasserts
|
11 tháng trước cách đây |
vocab_parallel_embedding.py
|
968bde81bf
fix: tensor parallel with GPTQ and AWQ quants (#307)
|
1 năm trước cách đây |