david/flash-attention

Autor	SHA1 Nachricht	Datum
Tri Dao	fb9c9cbbe9 Support qkv_descale of shape (batch_size, nheads_kv)	vor 2 Monaten
Tri Dao	9c954f7021 Use num_split_heuristics in fwd and fwd_varlen	vor 3 Monaten
Tri Dao	9fd6b977bb Precompute the pointers in mha_combine kernel	vor 3 Monaten
Tri Dao	64d92bce53 Split PagedKV into separate .cu files to speed up compilation	vor 3 Monaten
Tri Dao	018b9af683 Move .cu files to instantiations, use generate_kernels.py	vor 3 Monaten
Tri Dao	9f82a326ad Implement rotary for attn decode	vor 3 Monaten
Tri Dao	4d00645c76 Implement appending new KV to KV cache	vor 3 Monaten
Tri Dao	a65af55f4a Move mask_fn and load_Q into separate functions	vor 3 Monaten
Tri Dao	df96486c31 Decode: varlen, paged KV, leftpad	vor 3 Monaten
Tri Dao	6e8b25e426 Refactor	vor 5 Monaten
Ying Zhang	7b4e68e04f hopper local attention	vor 6 Monaten
Ying Zhang	db80387343 Add seqused_q in fwd / bwd and seqused_k in bwd.	vor 6 Monaten
jayhshah	c92ca63268 FA3 FP8 qkv descales + restore max offset for h128 causal + added sync for producer WG (#1173)	vor 6 Monaten
Tri Dao	bafe253042 [FA3] Bwd	vor 7 Monaten
Ying Zhang	dfe1a59e4b Add var-seq-len to FA3 fp16 / bf16 fwd (#1072)	vor 7 Monaten
Cameron Shinn	cb516f855b Remove torchlib dependency from cpp files (#1083)	vor 7 Monaten
Tri Dao	74b0761ff7 [FA3] BF16 forward	vor 7 Monaten
Tri Dao	7f67966cc7 FA3 initial code release	vor 7 Monaten