david/flash-attention

Author	SHA1 Message	Date
Jay Shah	50cb90aea6 comment out unimplemented kwargs from flash_attn_with_kvcache	4 months ago
Jay Shah	b5cac6d586 rebase with Is_local disabled temporarily	5 months ago
Jay Shah	2472e5e0b4 add 'in principle' fp8 kv cache support	5 months ago
Jay Shah	e36e004cb3 change fp8 code path to allow for split kernel and kv cache without perf regression	5 months ago
Jay Shah	f53703b98d add split kv heuristic modifications	5 months ago
Ganesh Bikshandi	099ca28488 add gqa decoding logic.	5 months ago
Jay Shah	a06f1f970b add to kv cache api	6 months ago
Jay Shah	535b8279bb complete gqa parallel changes for non-causal	6 months ago
Ganesh Bikshandi	84e31c22d6 adding python interface.	6 months ago
Ying Zhang	dff976a84a fixes	6 months ago
Ying Zhang	7b4e68e04f hopper local attention	6 months ago
Ying Zhang	db80387343 Add seqused_q in fwd / bwd and seqused_k in bwd.	6 months ago
Charlene Yang	bdf733be55 Add q, k, v descales to FA3 interface (#1210)	5 months ago
jayhshah	c92ca63268 FA3 FP8 qkv descales + restore max offset for h128 causal + added sync for producer WG (#1173)	6 months ago
Tri Dao	bafe253042 [FA3] Bwd	7 months ago
Tri Dao	3aae9c18c1 Revert "Changes For FP8 (#1075)"	7 months ago
ganeshcolfax	1899c970c8 Changes For FP8 (#1075)	7 months ago
Ying Zhang	dfe1a59e4b Add var-seq-len to FA3 fp16 / bf16 fwd (#1072)	7 months ago
youkaichao	ef3e358a25 remove lambda (#1056)	7 months ago
Tri Dao	7f67966cc7 FA3 initial code release	7 months ago