david
/
flash-attention
의 미러 https://github.com/Dao-AILab/flash-attention


			
				
					
						
						
							123456
							# @package _global_
model:
  config:
    n_embd: 1024
    n_head: 16
    n_layer: 24