david/flash-attention: flash-attention from https://github.com/Dao-AILab/flash-attention @ decode

Tri Dao fb9c9cbbe9 Support qkv_descale of shape (batch_size, nheads_kv)		před 1 dnem
..
instantiations	fc2fd95a18 Renable FP8 kernels	před 3 týdny
__init__.py	7f67966cc7 FA3 initial code release	před 5 měsíci
benchmark_attn.py	82c1aa3514 Move PackGQA epilogue code to pack_gqa.h	před 1 měsícem
benchmark_flash_attention_fp8.py	c92ca63268 FA3 FP8 qkv descales + restore max offset for h128 causal + added sync for producer WG (#1173)	před 3 měsíci
copy_sm90_bulk_reduce.hpp	29cdfedd80 Use Bulk reduce instead of TMA for dQaccum, split across WGs	před 1 týdnem
epilogue_bwd_sm90_tma.hpp	2c996ca25f Use SeqlenInfo for bwd and epilogue	před 1 týdnem
epilogue_fwd_sm90_tma.hpp	2c996ca25f Use SeqlenInfo for bwd and epilogue	před 1 týdnem
flash.h	fb9c9cbbe9 Support qkv_descale of shape (batch_size, nheads_kv)	před 1 dnem
flash_api.cpp	fb9c9cbbe9 Support qkv_descale of shape (batch_size, nheads_kv)	před 1 dnem
flash_attn_interface.py	0c49ac9a07 Implement rotary non-interleaved	před 3 týdny
flash_bwd_kernel.h	29cdfedd80 Use Bulk reduce instead of TMA for dQaccum, split across WGs	před 1 týdnem
flash_bwd_launch_template.h	ae3c1fb3e0 Simplify bwd by setting NumdQWarpGroups = NumMmaWarpGroups	před 6 dny
flash_bwd_postprocess_kernel.h	2c996ca25f Use SeqlenInfo for bwd and epilogue	před 1 týdnem
flash_bwd_preprocess_kernel.h	2c996ca25f Use SeqlenInfo for bwd and epilogue	před 1 týdnem
flash_fwd_combine_kernel.h	2c996ca25f Use SeqlenInfo for bwd and epilogue	před 1 týdnem
flash_fwd_combine_launch_template.h	9fd6b977bb Precompute the pointers in mha_combine kernel	před 3 týdny
flash_fwd_combine_sm80.cu	9fd6b977bb Precompute the pointers in mha_combine kernel	před 3 týdny
flash_fwd_kernel.h	fb9c9cbbe9 Support qkv_descale of shape (batch_size, nheads_kv)	před 1 dnem
flash_fwd_launch_template.h	fb9c9cbbe9 Support qkv_descale of shape (batch_size, nheads_kv)	před 1 dnem
generate_kernels.py	fc2fd95a18 Renable FP8 kernels	před 3 týdny
mainloop_bwd_sm90_tma_gmma_ws.hpp	ae3c1fb3e0 Simplify bwd by setting NumdQWarpGroups = NumMmaWarpGroups	před 6 dny
mainloop_fwd_sm90_tma_gmma_ws.hpp	fb9c9cbbe9 Support qkv_descale of shape (batch_size, nheads_kv)	před 1 dnem
mask.h	3b6ac2b954 Use compile time constants in local mask	před 1 týdnem
named_barrier.hpp	29cdfedd80 Use Bulk reduce instead of TMA for dQaccum, split across WGs	před 1 týdnem
pack_gqa.h	fe412d6b36 Redo rotary when contiguous	před 3 týdny
paged_kv.h	94657af3e8 Add option for not doing intra-WG overlapping of gemm and softmax	před 2 týdny
rotary.h	82dc825759 Don't use the unsafe convert_type function	před 2 týdny
seqlen.h	2c996ca25f Use SeqlenInfo for bwd and epilogue	před 1 týdnem
setup.py	29cdfedd80 Use Bulk reduce instead of TMA for dQaccum, split across WGs	před 1 týdnem
softmax.h	6293008748 Add option for Mma0_is_RS and Mma1_is_RS in attn fwd	před 6 dny
static_switch.h	42fc4962f0 Uncomment tanh softcapping	před 2 týdny
test_flash_attn.py	fb9c9cbbe9 Support qkv_descale of shape (batch_size, nheads_kv)	před 1 dnem
tile_scheduler.hpp	df96486c31 Decode: varlen, paged KV, leftpad	před 1 měsícem
tile_size.h	6293008748 Add option for Mma0_is_RS and Mma1_is_RS in attn fwd	před 6 dny
utils.h	e8a1edbeb2 Clean up some #include	před 1 týdnem