.. |
__init__.py
|
c2aaaefd57
allow out-of-tree model registry
|
před 9 měsíci |
baichuan.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
bloom.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
chatglm.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
cohere.py
|
a3b1602391
fix: rope scaling for cohere and qwen (#436)
|
před 9 měsíci |
dbrx.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
decilm.py
|
e31c6f0b45
feat: refactor modeling logic and support more models (#274)
|
před 11 měsíci |
deepseek.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
falcon.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
gemma.py
|
0d0c6b313c
fix: linear bias of qkv layers in models (#430)
|
před 9 měsíci |
gpt2.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
gpt_bigcode.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
gpt_j.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
gpt_neox.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
internlm2.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
llama.py
|
0d0c6b313c
fix: linear bias of qkv layers in models (#430)
|
před 9 měsíci |
llava.py
|
4d33ce60da
feat: Triton flash attention backend for ROCm (#407)
|
před 9 měsíci |
mixtral.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
mpt.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
olmo.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
opt.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
phi.py
|
50c2434267
move megatron to a top-level directory
|
před 9 měsíci |
qwen.py
|
a3b1602391
fix: rope scaling for cohere and qwen (#436)
|
před 9 měsíci |
qwen2.py
|
a3b1602391
fix: rope scaling for cohere and qwen (#436)
|
před 9 měsíci |
qwen2moe.py
|
a3b1602391
fix: rope scaling for cohere and qwen (#436)
|
před 9 měsíci |
stablelm.py
|
0d0c6b313c
fix: linear bias of qkv layers in models (#430)
|
před 9 měsíci |