福生无量摸鱼天尊

AMD 2025 分布式推理算子优化挑战赛 —— lect 9/16 note

2025/09/19
27
0

ROCm 入门

首先就是amd官方的命名跟nv的区别,其实区别并不大,只是AMD在cuda的基础上做了更多的优化,比如说一个wavefront有64个work-item,相当于一个warp有64个threads。其次就是有两种register,在

大的要来了