Tri Dao
|
27f8f890df
[FusedDense] Allocate lt_workspace on input device
|
před 1 rokem |
Tri Dao
|
dec4f2e910
[FusedDense] Set workspace size to 32M for Hopper and 4M for others
|
před 1 rokem |
Tri Dao
|
88173a1aaf
[FusedDense] Support relu, rename FusedDenseGeluDense -> FusedMLP
|
před 1 rokem |
Tri Dao
|
e68ebbe89a
Simplify FusedDense
|
před 2 roky |
Tri Dao
|
fa6d1ce44f
Add fused_dense and dropout_add_layernorm CUDA extensions
|
před 2 roky |