Historie revizí

Autor SHA1 Zpráva Datum
  Ying Zhang 496fdc4f6c Add seqused_q in fwd / bwd and seqused_k in bwd. před 4 měsíci
  Cameron Shinn 3cea2fb6ee Add ArchTag to pre/postprocess bwd kernels (#1180) před 4 měsíci
  jayhshah c92ca63268 FA3 FP8 qkv descales + restore max offset for h128 causal + added sync for producer WG (#1173) před 4 měsíci
  Tri Dao d79f9b41a8 [CrossEntropy] Use online softmax to simplify implementation před 5 měsíci
  Jay Shah 32792d37ec add missing if condition for key_padding_mask in test_util.py před 5 měsíci
  Ying Zhang 28e7f4ddbd Merge pull request #1155 from ipiszy/fix před 5 měsíci
  Ying Zhang 53537da422 add a unittest před 5 měsíci
  Ying Zhang a3a257c71d Fix out-of-bound writes for var-seq-len zero-length KVs před 5 měsíci
  Tri Dao bcd918f275 [LayerNorm] Add option to write result to out and residual_out před 5 měsíci
  Tri Dao bd82d6c6eb Revert "[LayerNorm] Don't store x + residual if we don't need gradients" před 5 měsíci
  Tri Dao 800401847e [LayerNorm] Don't store x + residual if we don't need gradients před 5 měsíci
  Garrett Byrd 16025d8cc9 Clearer install instructions for CUDA and ROCm backends (#1147) před 5 měsíci
  Ying Zhang 3669b25206 bwd benchmark + small fixes (#1129) před 5 měsíci
  Tri Dao 5d5bfbb619 Remove contiguous checks před 5 měsíci
  SueJane 3f1b4d38e7 Fix: check the type of max_seqlen_k instead of checking max_seqlen twice (#1127) před 5 měsíci
  Tri Dao 3f6ff1c1c5 Remove struct : cute::aligned_struct to avoid error with gcc 12 před 5 měsíci
  Tri Dao c33de664a1 Fix import in test před 5 měsíci
  Tri Dao bafe253042 [FA3] Bwd před 5 měsíci
  Ying Zhang abffb0f98c Merge pull request #1115 from ipiszy/bench před 5 měsíci
  Ying Zhang c7f20a2d31 add cudnn benchmark for var-len před 5 měsíci
  jayhshah 5018ac6ac5 Fp8 kernel with "in-kernel" transpose of V in producer (#1100) před 5 měsíci
  Tri Dao c4b9015d74 Add benchmark_gemm.py před 5 měsíci
  Tri Dao 418d677192 Bump to v2.6.3 před 6 měsíci
  Tri Dao 65205d350e [CI] Compile for pytorch 2.4.0 před 6 měsíci
  Tri Dao 3aae9c18c1 Revert "Changes For FP8 (#1075)" před 6 měsíci
  ganeshcolfax 1899c970c8 Changes For FP8 (#1075) před 6 měsíci
  Tri Dao 59594f2a67 Bump to v2.6.2 před 6 měsíci
  Tri Dao 299563626f Fix test with alibi and cache_leftpad před 6 měsíci
  Tri Dao 4488acee8d [CI] Compile with torch 2.4.0.dev20240527 před 6 měsíci
  Tri Dao 65f723bb9a Split bwd into more .cu files to speed up compilation před 6 měsíci