Cuda API 创建对象: #include <cuda_runtime.h> #include <cuda.h> #include <iostream> #include <string> // 获取当前机器的GPU数量 cudaError_t error_id = cudaGetDevice
随着LLM业务的不断发展,我们发现单机单卡无法承载一个模型的训练和推理,故此出现了单机多卡和多机多卡的训练推理算子,这时候每个机和卡之间都需要通信,所以通信算子十分的重要。 分布式并行 下面是传统的四种并行处理架构,常用于大模型训练。 DP
(施工ing) 概述 我们知道,算子的作用是计算,那在整个体系中,我们的核心目标是拉满GPU的利用率。 在现代分布式体系中,多GPU之间同时存在着计算、内存访问和通信这三种基本活动,为了服务于我们的核心目标,我们需要尽可能的将通信时间和访存时间放在计算时间内,使得GPU不存在运算时间的泡泡。 大模型
ROCm 入门 首先就是amd官方的命名跟nv的区别,其实区别并不大,只是AMD在cuda的基础上做了更多的优化,比如说一个wavefront有64个work-item,相当于一个warp有64个threads。其次就是有两种register,在
(施工ing)
比赛提供的link: 魔搭社区比赛首页 AMD比赛首页 amd-all2all kernel Leaderboard
基础篇
算法
CUDA优化
ai 编译器
算子进阶
Python LLM 编译器
Triton
PD分离
vllm源码
AMD
算子
比赛
八股
github
GPU
ubuntu
WSL2
cuda/Triton
MLsys24
paper
blog
Halo