Kevin Hu
|
07005806ff
Add BigCode converters (#532)
|
преди 1 година |
Kevin Hu
|
4c91621a5e
Inverse state dict for BERT (#527)
|
преди 1 година |
Tri Dao
|
ef6d8c75d9
[GPT] Fix loading weights from HF hub
|
преди 1 година |
Tri Dao
|
0e8c46ae08
Run isort and black on test files
|
преди 1 година |
Tri Dao
|
88173a1aaf
[FusedDense] Support relu, rename FusedDenseGeluDense -> FusedMLP
|
преди 2 години |
Tri Dao
|
c6ecd40a59
Tweak CrossEntropyLoss to take process_group in init
|
преди 2 години |
Tri Dao
|
13cdceb377
Implement last_layer_subset optimization for BERT
|
преди 2 години |
Tri Dao
|
5fb6df0e04
Implement BERT
|
преди 2 години |