sgsdxzy a3b1602391 fix: rope scaling for cohere and qwen (#436) 9 tháng trước cách đây
..
__init__.py c2aaaefd57 allow out-of-tree model registry 9 tháng trước cách đây
baichuan.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
bloom.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
chatglm.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
cohere.py a3b1602391 fix: rope scaling for cohere and qwen (#436) 9 tháng trước cách đây
dbrx.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
decilm.py e31c6f0b45 feat: refactor modeling logic and support more models (#274) 11 tháng trước cách đây
deepseek.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
falcon.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
gemma.py 0d0c6b313c fix: linear bias of qkv layers in models (#430) 9 tháng trước cách đây
gpt2.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
gpt_bigcode.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
gpt_j.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
gpt_neox.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
internlm2.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
llama.py 0d0c6b313c fix: linear bias of qkv layers in models (#430) 9 tháng trước cách đây
llava.py 4d33ce60da feat: Triton flash attention backend for ROCm (#407) 9 tháng trước cách đây
mixtral.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
mpt.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
olmo.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
opt.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
phi.py 50c2434267 move megatron to a top-level directory 9 tháng trước cách đây
qwen.py a3b1602391 fix: rope scaling for cohere and qwen (#436) 9 tháng trước cách đây
qwen2.py a3b1602391 fix: rope scaling for cohere and qwen (#436) 9 tháng trước cách đây
qwen2moe.py a3b1602391 fix: rope scaling for cohere and qwen (#436) 9 tháng trước cách đây
stablelm.py 0d0c6b313c fix: linear bias of qkv layers in models (#430) 9 tháng trước cách đây