ROCm 入门 首先就是amd官方的命名跟nv的区别,其实区别并不大,只是AMD在cuda的基础上做了更多的优化,比如说一个wavefront有64个work-item,相当于一个warp有64个threads。其次就是有两种register,在
比赛提供的link: 魔搭社区比赛首页 AMD比赛首页 amd-all2all kernel Leaderboard
基础篇
算法
CUDA优化
ai 编译器
算子进阶
Python LLM 编译器
Triton
PD分离
vllm源码
AMD
算子
比赛
八股
github
GPU
ubuntu
WSL2
cuda/Triton
MLsys24
paper
blog
Halo