福生无量摸鱼天尊

浮生无量摸鱼天尊

算子

6 篇文章

2025-09-09

算子

摸鱼天尊

2025/10/20

CUDA profile 大全 —— nsight computer & nsys & pytorch

Cuda API 创建对象： #include <cuda_runtime.h> #include <cuda.h> #include <iostream> #include <string> // 获取当前机器的GPU数量 cudaError_t error_id = cudaGetDevice

14

0

0
算子

摸鱼天尊

2025/09/22

算子进阶 —— 通信算子

随着LLM业务的不断发展，我们发现单机单卡无法承载一个模型的训练和推理，故此出现了单机多卡和多机多卡的训练推理算子，这时候每个机和卡之间都需要通信，所以通信算子十分的重要。分布式并行下面是传统的四种并行处理架构，常用于大模型训练。 DP

22

0

0
算子

摸鱼天尊

2025/09/19

算子进阶 —— 通算融合

（施工ing）概述我们知道，算子的作用是计算，那在整个体系中，我们的核心目标是拉满GPU的利用率。在现代分布式体系中，多GPU之间同时存在着计算、内存访问和通信这三种基本活动，为了服务于我们的核心目标，我们需要尽可能的将通信时间和访存时间放在计算时间内，使得GPU不存在运算时间的泡泡。大模型

17

0

0
算子

摸鱼天尊

2025/09/19

AMD 2025 分布式推理算子优化挑战赛 —— lect 9/16 note

ROCm 入门首先就是amd官方的命名跟nv的区别，其实区别并不大，只是AMD在cuda的基础上做了更多的优化，比如说一个wavefront有64个work-item，相当于一个warp有64个threads。其次就是有两种register，在

27

0

0
算子

摸鱼天尊

2025/09/18

Triton is all you need —— Triton 源码、编译和调试

（施工ing）

14

0

0
算子

摸鱼天尊

2025/09/09

AMD 2025 分布式推理算子优化挑战赛——笔记

比赛提供的link：魔搭社区比赛首页 AMD比赛首页 amd-all2all kernel Leaderboard

91

0

0

基础篇
1 篇文章



算法
0 篇文章



CUDA优化
0 篇文章



ai 编译器
1 篇文章



算子进阶
3 篇文章



Python LLM 编译器
1 篇文章



Triton
1 篇文章



PD分离
1 篇文章



vllm源码
3 篇文章



AMD
2 篇文章



算子
6 篇文章



比赛
2 篇文章



八股
1 篇文章



github
1 篇文章



GPU
3 篇文章



ubuntu
1 篇文章



WSL2
1 篇文章



cuda/Triton
7 篇文章



MLsys24
1 篇文章



paper
3 篇文章



blog
1 篇文章



Halo
1 篇文章