Ying Zhang b5a8931042 doc masking před 5 měsíci
..
__init__.py 7f67966cc7 FA3 initial code release před 7 měsíci
benchmark_attn.py 3669b25206 bwd benchmark + small fixes (#1129) před 7 měsíci
benchmark_flash_attention_fp8.py c92ca63268 FA3 FP8 qkv descales + restore max offset for h128 causal + added sync for producer WG (#1173) před 6 měsíci
block_info.h 7f67966cc7 FA3 initial code release před 7 měsíci
epilogue_bwd_sm90_tma.hpp db80387343 Add seqused_q in fwd / bwd and seqused_k in bwd. před 5 měsíci
epilogue_fwd_sm90_tma.hpp a3a257c71d Fix out-of-bound writes for var-seq-len zero-length KVs před 6 měsíci
flash.h b5a8931042 doc masking před 5 měsíci
flash_api.cpp b5a8931042 doc masking před 5 měsíci
flash_attn_interface.py b5a8931042 doc masking před 5 měsíci
flash_bwd_hdim128_bf16_sm90.cu bafe253042 [FA3] Bwd před 7 měsíci
flash_bwd_hdim128_fp16_sm90.cu 7f67966cc7 FA3 initial code release před 7 měsíci
flash_bwd_hdim256_fp16_sm90.cu 7f67966cc7 FA3 initial code release před 7 měsíci
flash_bwd_hdim64_bf16_sm90.cu bafe253042 [FA3] Bwd před 7 měsíci
flash_bwd_hdim64_fp16_sm90.cu 7f67966cc7 FA3 initial code release před 7 měsíci
flash_bwd_hdim96_bf16_sm90.cu bafe253042 [FA3] Bwd před 7 měsíci
flash_bwd_hdim96_fp16_sm90.cu bafe253042 [FA3] Bwd před 7 měsíci
flash_bwd_kernel.h 1c9717d699 address comments před 5 měsíci
flash_bwd_launch_template.h 1c9717d699 address comments před 5 měsíci
flash_bwd_postprocess_kernel.h db80387343 Add seqused_q in fwd / bwd and seqused_k in bwd. před 5 měsíci
flash_bwd_preprocess_kernel.h db80387343 Add seqused_q in fwd / bwd and seqused_k in bwd. před 5 měsíci
flash_fwd_hdim128_bf16_sm90.cu 74b0761ff7 [FA3] BF16 forward před 7 měsíci
flash_fwd_hdim128_e4m3_sm90.cu 5018ac6ac5 Fp8 kernel with "in-kernel" transpose of V in producer (#1100) před 7 měsíci
flash_fwd_hdim128_fp16_sm90.cu 7f67966cc7 FA3 initial code release před 7 měsíci
flash_fwd_hdim256_bf16_sm90.cu 74b0761ff7 [FA3] BF16 forward před 7 měsíci
flash_fwd_hdim256_e4m3_sm90.cu 5018ac6ac5 Fp8 kernel with "in-kernel" transpose of V in producer (#1100) před 7 měsíci
flash_fwd_hdim256_fp16_sm90.cu 7f67966cc7 FA3 initial code release před 7 měsíci
flash_fwd_hdim64_bf16_sm90.cu 74b0761ff7 [FA3] BF16 forward před 7 měsíci
flash_fwd_hdim64_e4m3_sm90.cu 5018ac6ac5 Fp8 kernel with "in-kernel" transpose of V in producer (#1100) před 7 měsíci
flash_fwd_hdim64_fp16_sm90.cu 7f67966cc7 FA3 initial code release před 7 měsíci
flash_fwd_kernel.h b5a8931042 doc masking před 5 měsíci
flash_fwd_launch_template.h b5a8931042 doc masking před 5 měsíci
kernel_traits.h b5a8931042 doc masking před 5 měsíci
mainloop_bwd_sm90_tma_gmma_ws.hpp 1c9717d699 address comments před 5 měsíci
mainloop_fwd_sm90_tma_gmma_ws.hpp dff976a84a fixes před 5 měsíci
named_barrier.hpp bafe253042 [FA3] Bwd před 7 měsíci
seq_len.h b5a8931042 doc masking před 5 měsíci
setup.py 8476986721 Fix FAv3 compilation with MSVC (#1240) před 5 měsíci
softmax.h c92ca63268 FA3 FP8 qkv descales + restore max offset for h128 causal + added sync for producer WG (#1173) před 6 měsíci
static_switch.h dfe1a59e4b Add var-seq-len to FA3 fp16 / bf16 fwd (#1072) před 7 měsíci
test_flash_attn.py b5a8931042 doc masking před 5 měsíci
tile_scheduler.hpp b5a8931042 doc masking před 5 měsíci
tile_scheduler_bwd.hpp bafe253042 [FA3] Bwd před 7 měsíci
utils.h bafe253042 [FA3] Bwd před 7 měsíci