LLM - 福生无量摸鱼天尊

LLM

摸鱼天尊

2025/10/20

CUDA profile 大全 —— nsight computer & nsys & pytorch

Cuda API 创建对象： #include <cuda_runtime.h> #include <cuda.h> #include <iostream> #include <string> // 获取当前机器的GPU数量 cudaError_t error_id = cudaGetDevice

17

0

0
LLM

摸鱼天尊

2025/09/29

PD分离 —— Prefix Cache和Chunk Prefills

目前推理框架基本上都需要用到多轮对话的场景，自然产生了kv cache的存储和索引算法。如果能把prompt和后续产生的KV Cache保存下来，会极大地降低首Token的耗时。目前使用最多的就是两个技术方案，一个是SGLang推出的RadixAttention的Prefix Cache，另一

30

0

0
LLM

摸鱼天尊

2025/09/22

算子进阶 —— 通信算子

随着LLM业务的不断发展，我们发现单机单卡无法承载一个模型的训练和推理，故此出现了单机多卡和多机多卡的训练推理算子，这时候每个机和卡之间都需要通信，所以通信算子十分的重要。分布式并行下面是传统的四种并行处理架构，常用于大模型训练。 DP

31

0

0
LLM

摸鱼天尊

2025/09/19

算子进阶 —— 通算融合

（施工ing）概述我们知道，算子的作用是计算，那在整个体系中，我们的核心目标是拉满GPU的利用率。在现代分布式体系中，多GPU之间同时存在着计算、内存访问和通信这三种基本活动，为了服务于我们的核心目标，我们需要尽可能的将通信时间和访存时间放在计算时间内，使得GPU不存在运算时间的泡泡。大模型

23

0

0
LLM

摸鱼天尊

2025/09/19

AMD 2025 分布式推理算子优化挑战赛 —— lect 9/16 note

ROCm 入门首先就是amd官方的命名跟nv的区别，其实区别并不大，只是AMD在cuda的基础上做了更多的优化，比如说一个wavefront有64个work-item，相当于一个warp有64个threads。其次就是有两种register，在

28

0

0
LLM

摸鱼天尊

2025/09/18

Triton is all you need —— Triton 源码、编译和调试

（施工ing）

15

0

0
LLM

摸鱼天尊

2025/09/11

AI编译器 —— 笔记

challenge 新模型新module出现，需要对应算子进行计算，还需要结合硬件进行特性优化和测试，尽量充分发挥硬件性能硬件厂商还会发布新技术的加速计算库专用加速芯片爆发导致性能可移植性成为一种刚需不同厂商的ISA不尽相同一般缺乏如GCC、LLVM等编译工具链，使得针对CPU和GPU已有

15

0

0
LLM

摸鱼天尊

2025/09/09

AMD 2025 分布式推理算子优化挑战赛——笔记

比赛提供的link：魔搭社区比赛首页 AMD比赛首页 amd-all2all kernel Leaderboard

94

0

0
LLM

摸鱼天尊

2025/09/03

LLM infra 八股全集

收集我和我小伙伴互相问的八股问题，里面有gemini deep search的回答，望周知。 LLM model rmsnorm和layernorm相比有什么优点参考为什么最新的大模型普遍用RMSNorm？

185

0

3
LLM

摸鱼天尊

2025/08/27

【LLM 必读综述】Speed Always Wins：LLM高效架构调查

题目：Speed Always Wins: A Survey on Efficient Architectures for Large Language Models 作者：孙伟高上海人工智能实验室 github：https://github.com/weigao266/Awesome-Effic

64

0

0

code cli
1 篇文章



context engineering
2 篇文章



ACM
1 篇文章



算法
1 篇文章



算法竞赛
1 篇文章



vllm
2 篇文章



AMD算子挑战赛
2 篇文章



github
1 篇文章



inference
7 篇文章



LLM
10 篇文章



CUDA入门到入土
6 篇文章



cuda/Triton
11 篇文章



MLsys24
1 篇文章



paper
2 篇文章



blog
3 篇文章



默认分类
1 篇文章