Историја ревизија

Аутор SHA1 Порука Датум
  GAOXinyu 0cb595ad94 [bugfix] handle_x not define when using checkpoint_lvl = 2 (#502) пре 1 година
  Tri Dao f1a73d0740 Run isort and black on python files пре 1 година
  Xuechen Li bb4cded17b support when num_heads is not divisible by world_size; resolves #459 (#461) пре 1 година
  Tri Dao cb0daccc41 [FusedDense] Allow Row/ColumnParallelLinear to have uneven split пре 1 година
  Tri Dao bcfa7c9751 [FusedDense] Run black on fused_dense.py пре 1 година
  Tri Dao b630aef53f Implement GatedMlp пре 1 година
  Tri Dao 6f6e9a9aaf [FusedDense] Enable sqrelu activation in FusedMLP пре 1 година
  Tri Dao dc08ea1c33 Support H100 for other CUDA extensions пре 1 година
  Tri Dao 88173a1aaf [FusedDense] Support relu, rename FusedDenseGeluDense -> FusedMLP пре 1 година
  Tri Dao 93383bd55b [TP] Implement TensorParallel without sequence parallel пре 1 година
  Tri Dao 1ec09ebd90 [FusedDense] Limit matrix dims to 2M (instead of 64k) пре 1 година
  Tri Dao 65b4064b2a [FusedDense] Kick off input all_gather before weight dtype conversion пре 1 година
  Tri Dao a8cfe51551 Implement Tensor Parallel for transformer Block пре 2 година
  Tri Dao 226a1b721d Implement TensorParallel for FusedDense and FusedDenseGeluDense пре 2 година
  Tri Dao e68ebbe89a Simplify FusedDense пре 2 година
  Tri Dao d4b320b31f Add MLP, MHA, Block, Embedding modules пре 2 година
  Tri Dao fa6d1ce44f Add fused_dense and dropout_add_layernorm CUDA extensions пре 2 година