Historie revizí

Autor SHA1 Zpráva Datum
  Tri Dao fb9c9cbbe9 Support qkv_descale of shape (batch_size, nheads_kv) před 2 dny
  Tri Dao 6293008748 Add option for Mma0_is_RS and Mma1_is_RS in attn fwd před 6 dny
  Tri Dao ae3c1fb3e0 Simplify bwd by setting NumdQWarpGroups = NumMmaWarpGroups před 6 dny
  Tri Dao 2c996ca25f Use SeqlenInfo for bwd and epilogue před 1 týdnem
  Tri Dao 88fdffc16e Fix test for softcap FP8 před 1 týdnem
  Tri Dao f5e89ff136 Tune tile size for bwd softcap před 1 týdnem
  Tri Dao 3b6ac2b954 Use compile time constants in local mask před 1 týdnem
  Tri Dao bfbaafd043 Fix bwd reading out of out LSE před 1 týdnem
  Tri Dao 29cdfedd80 Use Bulk reduce instead of TMA for dQaccum, split across WGs před 1 týdnem
  Tri Dao 9c954f7021 Use num_split_heuristics in fwd and fwd_varlen před 1 týdnem
  Tri Dao 314b9edfc0 Don't need to link to cuda lib anymore před 1 týdnem
  Tri Dao f6e165becf Change tile_size and local to avoid wgmma being serialized před 1 týdnem
  Tri Dao f11624b746 Disable --split-compile due to ptxas register allocation failure před 1 týdnem
  Tri Dao e8a1edbeb2 Clean up some #include před 1 týdnem
  Tri Dao 8ae77ea17c Download nvcc 12.3 to compile for best perf před 1 týdnem
  Tri Dao 199c82052c Fix test for has_batch_idx před 1 týdnem
  Tri Dao 3ed79742fb Add option to shuffle LSE and dPsum in the bwd před 2 týdny
  Tri Dao 42fc4962f0 Uncomment tanh softcapping před 2 týdny
  Tri Dao 6bc55b571c Use --split-compile to speed up compilation před 2 týdny
  Tri Dao 82dc825759 Don't use the unsafe convert_type function před 2 týdny
  Tri Dao 9553b2728f More env vars to disable features před 2 týdny
  Tri Dao 3248babb9e QOL: Use env var to selectively disable features před 2 týdny
  Tri Dao c9c40eba83 Uncomment local attn před 2 týdny
  Tri Dao 94657af3e8 Add option for not doing intra-WG overlapping of gemm and softmax před 2 týdny
  Tri Dao a4d41d2605 Fix epilogue compilation před 2 týdny
  Tri Dao f0b5a6ec4c Wait for barrier_O at load_tail to avoid Cluster error před 2 týdny
  Tri Dao 95ba9e51e5 Simplify epilogue when split by using thread_mma.partition_C před 3 týdny
  Tri Dao 47d4d2a76d Fix FP8 hdim 256 perf regression před 3 týdny
  Tri Dao fc2fd95a18 Renable FP8 kernels před 3 týdny
  Tri Dao e7b93e3902 Clean up mha_combine kernel před 3 týdny