Cuda API 创建对象: #include <cuda_runtime.h> #include <cuda.h> #include <iostream> #include <string> // 获取当前机器的GPU数量 cudaError_t error_id = cudaGetDevice
目前推理框架基本上都需要用到多轮对话的场景,自然产生了kv cache的存储和索引算法。如果能把prompt和后续产生的KV Cache保存下来,会极大地降低首Token的耗时。 目前使用最多的就是两个技术方案,一个是SGLang推出的RadixAttention的Prefix Cache,另一
随着LLM业务的不断发展,我们发现单机单卡无法承载一个模型的训练和推理,故此出现了单机多卡和多机多卡的训练推理算子,这时候每个机和卡之间都需要通信,所以通信算子十分的重要。 分布式并行 下面是传统的四种并行处理架构,常用于大模型训练。 DP
(施工ing) 概述 我们知道,算子的作用是计算,那在整个体系中,我们的核心目标是拉满GPU的利用率。 在现代分布式体系中,多GPU之间同时存在着计算、内存访问和通信这三种基本活动,为了服务于我们的核心目标,我们需要尽可能的将通信时间和访存时间放在计算时间内,使得GPU不存在运算时间的泡泡。 大模型
ROCm 入门 首先就是amd官方的命名跟nv的区别,其实区别并不大,只是AMD在cuda的基础上做了更多的优化,比如说一个wavefront有64个work-item,相当于一个warp有64个threads。其次就是有两种register,在
(施工ing)
challenge 新模型 新module出现,需要对应算子进行计算,还需要结合硬件进行特性优化和测试,尽量充分发挥硬件性能 硬件厂商还会发布新技术的加速计算库 专用加速芯片爆发导致性能可移植性成为一种刚需 不同厂商的ISA不尽相同 一般缺乏如GCC、LLVM等编译工具链,使得针对CPU和GPU已有
比赛提供的link: 魔搭社区比赛首页 AMD比赛首页 amd-all2all kernel Leaderboard
收集我和我小伙伴互相问的八股问题,里面有gemini deep search的回答,望周知。 LLM model rmsnorm和layernorm相比有什么优点 参考为什么最新的大模型普遍用RMSNorm?
题目:Speed Always Wins: A Survey on Efficient Architectures for Large Language Models 作者:孙伟高 上海人工智能实验室 github:https://github.com/weigao266/Awesome-Effic
ACM
算法
算法竞赛
vllm
AMD算子挑战赛
github
inference
LLM
CUDA入门到入土
cuda/Triton
MLsys24
paper
blog
默认分类