AlpinDale da6765c084 feat: lora support for commandr models 7 tháng trước cách đây
..
__init__.py e6d70101b3 feat: add support for phi-3 vision model 7 tháng trước cách đây
arctic.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
baichuan.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
bloom.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
chatglm.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
commandr.py da6765c084 feat: lora support for commandr models 7 tháng trước cách đây
dbrx.py b2cb5a92e9 fix: missing cache_config for dbrx 7 tháng trước cách đây
decilm.py 50b7c13db0 refactor: attention selector (#552) 8 tháng trước cách đây
deepseek.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
falcon.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
gemma.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
gpt2.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
gpt_bigcode.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
gpt_j.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
gpt_neox.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
internlm2.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
jais.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
llama.py 690110a051 feat: bitsandbytes quantization 7 tháng trước cách đây
llama_embedding.py 50b7c13db0 refactor: attention selector (#552) 8 tháng trước cách đây
llava.py 190276865a feat: llava-next support 7 tháng trước cách đây
llava_next.py 190276865a feat: llava-next support 7 tháng trước cách đây
minicpm.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
mixtral.py ab5ffb228c fp8: `act_scale` -> `input_scale` 7 tháng trước cách đây
mixtral_quant.py ac79d115b3 add guards for prefix caching, fp8, chunked, etc 8 tháng trước cách đây
mpt.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
olmo.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
opt.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
orion.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
phi.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
phi3_small.py 696f2cd59c add phi3_small support with blocksparse attention 8 tháng trước cách đây
phi3v.py 79b1c0b861 fix: do not error our if two processes do not agree on p2p capability 7 tháng trước cách đây
qwen.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
qwen2.py ac79d115b3 add guards for prefix caching, fp8, chunked, etc 8 tháng trước cách đây
qwen2_moe.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
stablelm.py 656459fd84 make fp8_e4m3 work on nvidia 8 tháng trước cách đây
starcoder2.py ac79d115b3 add guards for prefix caching, fp8, chunked, etc 8 tháng trước cách đây
vlm_base.py f970f3f3fb add base class for VLMs 8 tháng trước cách đây
xverse.py ac79d115b3 add guards for prefix caching, fp8, chunked, etc 8 tháng trước cách đây