目前推理框架基本上都需要用到多轮对话的场景,自然产生了kv cache的存储和索引算法。如果能把prompt和后续产生的KV Cache保存下来,会极大地降低首Token的耗时。 目前使用最多的就是两个技术方案,一个是SGLang推出的RadixAttention的Prefix Cache,另一
基础篇
算法
CUDA优化
ai 编译器
算子进阶
Python LLM 编译器
Triton
PD分离
vllm源码
AMD
算子
比赛
八股
github
GPU
ubuntu
WSL2
cuda/Triton
MLsys24
paper
blog
Halo