kernel: optimize attention kernel performance by guocuimi · Pull Request #377 · vectorch-ai/ScaleLLM

guocuimi · 2025-01-17T22:22:57Z

1> use more static dispatch
2> use cutlass::FastDivmod for slot id calculation
3> handle oob for k (head_dim)

guocuimi added 6 commits January 17, 2025 14:22

kernel: optimize attention kernel performance

ec6dd38

added head dim oob support

e96c747

use cutlass::FastDivmod for paged kv cache

e78c17c

fix typo

601f310

use _0{}

85f5feb

fix even_k check

d13dfec

guocuimi merged commit 65b3c53 into main Jan 18, 2025

Provide feedback