challenge 新模型 新module出现,需要对应算子进行计算,还需要结合硬件进行特性优化和测试,尽量充分发挥硬件性能 硬件厂商还会发布新技术的加速计算库 专用加速芯片爆发导致性能可移植性成为一种刚需 不同厂商的ISA不尽相同 一般缺乏如GCC、LLVM等编译工具链,使得针对CPU和GPU已有
基础篇
算法
CUDA优化
ai 编译器
算子进阶
Python LLM 编译器
Triton
PD分离
vllm源码
AMD
算子
比赛
八股
github
GPU
ubuntu
WSL2
cuda/Triton
MLsys24
paper
blog
Halo