.. |
attention
|
4e71bd1d12
feat: add PagedAttention V2 kernels (#76)
|
před 1 rokem |
quantization
|
887e03669a
feat: add exllamav2 for GPTQ (#99)
|
před 1 rokem |
activation.cpp
|
32844c1522
add GELU kernels and remove compile bloat
|
před 1 rokem |
activation_kernels.cu
|
3d72f05c7b
feat: flattened 1D tensor -> 2D tensor (#85)
|
před 1 rokem |
attention.cpp
|
4e71bd1d12
feat: add PagedAttention V2 kernels (#76)
|
před 1 rokem |
cache.cpp
|
081545bde6
fix: various CUDA kernel tweaks
|
před 1 rokem |
cache_kernels.cu
|
3d72f05c7b
feat: flattened 1D tensor -> 2D tensor (#85)
|
před 1 rokem |
cuda_utils.cpp
|
75c27d3e65
massive overhaul
|
před 1 rokem |
cuda_utils_kernels.cu
|
75c27d3e65
massive overhaul
|
před 1 rokem |
dispatch_utils.h
|
32844c1522
add GELU kernels and remove compile bloat
|
před 1 rokem |
layernorm.cpp
|
081545bde6
fix: various CUDA kernel tweaks
|
před 1 rokem |
layernorm_kernels.cu
|
3d72f05c7b
feat: flattened 1D tensor -> 2D tensor (#85)
|
před 1 rokem |
pos_encoding.cpp
|
45f6d9f923
initial refactor commit
|
před 1 rokem |
pos_encoding_kernels.cu
|
3d72f05c7b
feat: flattened 1D tensor -> 2D tensor (#85)
|
před 1 rokem |
quantization.cpp
|
887e03669a
feat: add exllamav2 for GPTQ (#99)
|
před 1 rokem |
reduction.cuh
|
081545bde6
fix: various CUDA kernel tweaks
|
před 1 rokem |