Historial de Commits

Autor SHA1 Mensaje Fecha
  Antoni Viros 83e41b3ca4 Add custom ops for compatibility with PT Compile (#1139) hace 3 meses
  youkaichao ef3e358a25 remove lambda (#1056) hace 5 meses
  Tri Dao 898dd4bbf2 Pass seqused_k to _flash_attn_varlen_forward hace 5 meses
  Tri Dao 40e534a7f6 Implement cache_leftpad hace 6 meses
  Tri Dao 81e01efd4b More typo fixes hace 6 meses
  Tri Dao 72e27c6320 Fix typo with softcapping hace 6 meses
  Phil Wang f4628b43ec missing commas and backwards return arguments (#1032) hace 6 meses
  Nicolas Patry 8f873cc6ac Implement softcapping. (#1025) hace 6 meses
  Jianwei Dong 4e8d60069f Add the return_softmax_lse parameter to the flash_attn_with_kvcache function to allow returning the logsumexp of the attention scores. (#989) hace 6 meses
  Grigory Sizov f816dee63c Support unpadded LSE layout (#970) hace 6 meses
  Grigory Sizov 2a15840f09 Enable paged attention in varlen forward (#831) hace 9 meses
  Tao He 204c3c6d1b Fixes an error in comment (#785) hace 11 meses
  Tri Dao 54e80a3829 Implement page KV cache hace 11 meses
  Tri Dao a7b66ae25a Simplify writing softmax to gmem hace 1 año
  Tri Dao 732654583c Implement deterministic backward (thanks to Meituan) hace 1 año
  Tri Dao 5ab9b3667b Clean up alibi, implement non-causal alibi hace 1 año
  Tri Dao bc28eacc60 Format flash_attn_interface.py hace 1 año
  Sanghun Cho e4f726fc44 Support alibi, by Sanghun Cho from Kakao Brain hace 1 año
  Tri Dao d4a7c8ffbb [CI] Only compile for CUDA 11.8 & 12.2, MAX_JOBS=2,add torch-nightly hace 1 año
  Jeremy Reizenstein ce3e7280f8 Allow varlen_fwd to take optional seqused_k (#647) hace 1 año
  Tri Dao e279bf8ed9 [Gen] Accept cache_batch_idx to index into the KV cache hace 1 año
  Tri Dao 083e8f525f Implement local attention hace 1 año
  Tri Dao ccbb14f38e Implement rotary embedding in flash_attn_with_kvcache hace 1 año
  Tri Dao ee77b931b9 Swap seqlen_q and nheads for MQA to speed it up (h/t Daniel Haziza) hace 1 año
  Tri Dao fd20f16a4e Support cache_seqlens being integer hace 1 año
  Tri Dao 37c6e05406 Implement flash_attn_with_kvcache hace 1 año
  Tri Dao 9e5e8bc91e Change causal mask to be aligned to bottom-right instead of top-left hace 1 año
  Tri Dao d431f16751 Import torch before flash_attn_2_cuda hace 1 año
  Tri Dao f1a73d0740 Run isort and black on python files hace 1 año
  Tri Dao 8f4cd4c16b [Docs] Fix docstring about Q nheads being divisible by KV nheads hace 1 año