david/flash-attention

Autor	SHA1 Mensagem	Data
Tri Dao	fb9c9cbbe9 Support qkv_descale of shape (batch_size, nheads_kv)	há 2 meses atrás
Tri Dao	9c954f7021 Use num_split_heuristics in fwd and fwd_varlen	há 3 meses atrás
Tri Dao	9fd6b977bb Precompute the pointers in mha_combine kernel	há 3 meses atrás
Tri Dao	64d92bce53 Split PagedKV into separate .cu files to speed up compilation	há 3 meses atrás
Tri Dao	018b9af683 Move .cu files to instantiations, use generate_kernels.py	há 3 meses atrás
Tri Dao	9f82a326ad Implement rotary for attn decode	há 3 meses atrás
Tri Dao	4d00645c76 Implement appending new KV to KV cache	há 3 meses atrás
Tri Dao	a65af55f4a Move mask_fn and load_Q into separate functions	há 3 meses atrás
Tri Dao	df96486c31 Decode: varlen, paged KV, leftpad	há 3 meses atrás
Tri Dao	6e8b25e426 Refactor	há 5 meses atrás
Ying Zhang	7b4e68e04f hopper local attention	há 6 meses atrás
Ying Zhang	db80387343 Add seqused_q in fwd / bwd and seqused_k in bwd.	há 6 meses atrás
jayhshah	c92ca63268 FA3 FP8 qkv descales + restore max offset for h128 causal + added sync for producer WG (#1173)	há 6 meses atrás
Tri Dao	bafe253042 [FA3] Bwd	há 7 meses atrás
Ying Zhang	dfe1a59e4b Add var-seq-len to FA3 fp16 / bf16 fwd (#1072)	há 7 meses atrás
Cameron Shinn	cb516f855b Remove torchlib dependency from cpp files (#1083)	há 7 meses atrás
Tri Dao	74b0761ff7 [FA3] BF16 forward	há 7 meses atrás
Tri Dao	7f67966cc7 FA3 initial code release	há 7 meses atrás