david/flash-attention

Autor	SHA1 Permisiunea de a trimite mesaje. Dacă este dezactivată, utilizatorul nu va putea trimite nici un fel de mesaj	Data
Tri Dao	eb33e587e9 [LayerNorm] Rename x1 -> residual	2 ani în urmă
Tri Dao	88173a1aaf [FusedDense] Support relu, rename FusedDenseGeluDense -> FusedMLP	2 ani în urmă
Tri Dao	ff34123bd4 Reorder LN in Block, support OPT	2 ani în urmă
Tri Dao	7c2191542a [Gen] Make generation work with Tensor Parallel	2 ani în urmă
Tri Dao	11be742aa3 [Gen] Test generation with rotary embedding	2 ani în urmă
Tri Dao	93383bd55b [TP] Implement TensorParallel without sequence parallel	2 ani în urmă
Tri Dao	714c1b4f0f [Bert] Fix embedding layer norm before embedding dropout	2 ani în urmă
Tri Dao	ef1ba918c6 [GPT] Refactor function to shard state_dict for TensorParallel	2 ani în urmă
Tri Dao	63670fd84a Implement generation for GPT	2 ani în urmă
Tri Dao	9d797d8848 Support loading GPT2 weights from Huggingface	2 ani în urmă
Tri Dao	b4018a5028 Implement Tensor Parallel for GPT model	2 ani în urmă
Tri Dao	e68ebbe89a Simplify FusedDense	2 ani în urmă
Tri Dao	496e4f528c Implement XPos (Sun et al.)	2 ani în urmă
Tri Dao	5fb6df0e04 Implement BERT	2 ani în urmă
Tri Dao	1feb94265c [ViT] Use dropout_add_ln for the 1st layer norm	2 ani în urmă
Tri Dao	2e33fc8e36 Add GPT and ViT models	2 ani în urmă