Tri Dao
|
ccbb14f38e
Implement rotary embedding in flash_attn_with_kvcache
|
před 1 rokem |
Tri Dao
|
a157cc8c9b
[FT] Implement MQA/GQA
|
před 1 rokem |
Tri Dao
|
2800efc71f
[FT] rotary_cos/sin should have batch_size dimension
|
před 1 rokem |
Tri Dao
|
3a9bfd076f
[FT] rotary_cos/sin should have shape (dim) instead of (seqlen, dim)
|
před 1 rokem |
Tri Dao
|
62e9814466
[Rotary] Make sure frequency calculation is in fp32
|
před 1 rokem |
Tri Dao
|
48bc6eacd6
[Gen] Add rotary base as an argument to FT attention kernel
|
před 1 rokem |
Tri Dao
|
f1e01c27ba
[Gen] Pass qkv_stride to ft_attention kernel for batched generation
|
před 1 rokem |
Tri Dao
|
7c2191542a
[Gen] Make generation work with Tensor Parallel
|
před 1 rokem |
Tri Dao
|
a01d1213d7
[Gen] Add kernel from FasterTransformer for benchmarking
|
před 1 rokem |