.. |
__init__.py
|
e6d70101b3
feat: add support for phi-3 vision model
|
7 tháng trước cách đây |
arctic.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
baichuan.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
bloom.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
chatglm.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
commandr.py
|
da6765c084
feat: lora support for commandr models
|
7 tháng trước cách đây |
dbrx.py
|
b2cb5a92e9
fix: missing cache_config for dbrx
|
7 tháng trước cách đây |
decilm.py
|
50b7c13db0
refactor: attention selector (#552)
|
8 tháng trước cách đây |
deepseek.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
falcon.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
gemma.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
gpt2.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
gpt_bigcode.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
gpt_j.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
gpt_neox.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
internlm2.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
jais.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
llama.py
|
690110a051
feat: bitsandbytes quantization
|
7 tháng trước cách đây |
llama_embedding.py
|
50b7c13db0
refactor: attention selector (#552)
|
8 tháng trước cách đây |
llava.py
|
190276865a
feat: llava-next support
|
7 tháng trước cách đây |
llava_next.py
|
190276865a
feat: llava-next support
|
7 tháng trước cách đây |
minicpm.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
mixtral.py
|
ab5ffb228c
fp8: `act_scale` -> `input_scale`
|
7 tháng trước cách đây |
mixtral_quant.py
|
ac79d115b3
add guards for prefix caching, fp8, chunked, etc
|
8 tháng trước cách đây |
mpt.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
olmo.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
opt.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
orion.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
phi.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
phi3_small.py
|
696f2cd59c
add phi3_small support with blocksparse attention
|
8 tháng trước cách đây |
phi3v.py
|
79b1c0b861
fix: do not error our if two processes do not agree on p2p capability
|
7 tháng trước cách đây |
qwen.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
qwen2.py
|
ac79d115b3
add guards for prefix caching, fp8, chunked, etc
|
8 tháng trước cách đây |
qwen2_moe.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
stablelm.py
|
656459fd84
make fp8_e4m3 work on nvidia
|
8 tháng trước cách đây |
starcoder2.py
|
ac79d115b3
add guards for prefix caching, fp8, chunked, etc
|
8 tháng trước cách đây |
vlm_base.py
|
f970f3f3fb
add base class for VLMs
|
8 tháng trước cách đây |
xverse.py
|
ac79d115b3
add guards for prefix caching, fp8, chunked, etc
|
8 tháng trước cách đây |