.. |
__init__.py
|
d9f4c36edd
feat: Medusa speculative decoding support (#590)
|
6 місяців тому |
arctic.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
baichuan.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
bloom.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
chatglm.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
clip.py
|
c11a8bdaad
fix: calculate max number of multi-modal tokens automatically
|
6 місяців тому |
commandr.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
dbrx.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
decilm.py
|
56e0b8223c
chore: add base class for LoRA-supported models
|
7 місяців тому |
deepseek.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
deepseek_v2.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
falcon.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
gemma.py
|
05e45aeb53
fix: dtype mismatch for paligemma
|
6 місяців тому |
gemma2.py
|
5761ef8c35
feat: gemma-2 support
|
6 місяців тому |
gpt2.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
gpt_bigcode.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
gpt_j.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
gpt_neox.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
interfaces.py
|
4f7d212b70
feat: remove vision language config
|
6 місяців тому |
internlm2.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
jais.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
jamba.py
|
ebba0d9226
fix: mamba cache cuda graph padding
|
6 місяців тому |
llama.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
llama_embedding.py
|
50b7c13db0
refactor: attention selector (#552)
|
7 місяців тому |
llava.py
|
7e99578712
fix: cleanup validation and update docs for vlm
|
6 місяців тому |
llava_next.py
|
0ab35652d3
fix: llava 1.6 feature size calculation
|
6 місяців тому |
medusa.py
|
d9f4c36edd
feat: Medusa speculative decoding support (#590)
|
6 місяців тому |
minicpm.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
mixtral.py
|
9622c59f8f
chore: support 2D input shape in MoE layer
|
6 місяців тому |
mixtral_quant.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
mlp_speculator.py
|
db73f03cdc
fix: use ParallelLMHead for MLPSpeculator
|
6 місяців тому |
mpt.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
olmo.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
opt.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
orion.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
paligemma.py
|
05e45aeb53
fix: dtype mismatch for paligemma
|
6 місяців тому |
phi.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
phi3_small.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
phi3v.py
|
7e99578712
fix: cleanup validation and update docs for vlm
|
6 місяців тому |
qwen.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
qwen2.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
qwen2_moe.py
|
9622c59f8f
chore: support 2D input shape in MoE layer
|
6 місяців тому |
stablelm.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
starcoder2.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |
utils.py
|
4599c98f99
feat: dynamic image size support for VLMs
|
6 місяців тому |
xverse.py
|
0f4a9ee77b
quantized lm_head (#582)
|
6 місяців тому |