福生无量摸鱼天尊

大佬博客 —— Orz

2025/12/11
14
0

旨在排列出看过或者没看过收集的高质量博客

苏神

地址:科学空间

高代

从一个单位向量变换到另一个单位向量的正交矩阵

“对角+低秩”三角阵的高效求逆方法

矩阵的有效秩(Effective Rank)

低秩近似之路(一):伪逆

低秩近似之路(二):SVD

低秩近似之路(三):CR

低秩近似之路(四):ID

低秩近似之路(五):CUR

Monarch矩阵:计算高效的稀疏型矩阵分解

随机矩阵的谱范数的快速估计

概率与统计

从重参数的角度看离散概率分布的构建

通向概率分布之路:盘点Softmax及其替代品

概率视角下的线性模型:逻辑回归有解析解吗?

两个多元正态分布的KL散度、巴氏距离和W距离

如何度量数据的稀疏程度?

从局部到全局:语义相似度的测地线距离

让人惊叹的Johnson-Lindenstrauss引理:理论篇

让人惊叹的Johnson-Lindenstrauss引理:应用篇

从JL引理看熵不变性Attention

从熵不变性看Attention的Scale操作

熵不变性Softmax的一个快速推导

从梯度最大化看Attention的Scale操作

随机分词浅探:从Viterbi Decoding到Viterbi Sampling

随机分词再探:从Viterbi Sampling到完美采样算法

通向最优分布之路:概率空间的最小化

如何训练你的准确率?

n个正态随机数的最大值的渐近估计

DL基础

流形上的最速下降:1. SGD + 超球面

流形上的最速下降:2. Muon + 正交

流形上的最速下降:3. Muon + Stiefel

流形上的最速下降:4. Muon + 谱球面

梯度流:探索通向最小值之路

重新思考学习率与Batch Size(一):现状

重新思考学习率与Batch Size(二):平均场

重新思考学习率与Batch Size(三):Muon

重新思考学习率与Batch Size(四):EMA

为什么需要残差?一个来自DeepNet的视角

为什么Pre Norm的效果不如Post Norm?

缓解交叉熵过度自信的一个简明方案

Google新搜出的优化器Lion:效率与效果兼得的“训练狮”

attention

BytePiece:更纯粹、更高压缩率的Tokenizer

浅谈Transformer的初始化、参数化与标准化

让研究人员绞尽脑汁的Transformer位置编码

Transformer升级之路:1、Sinusoidal位置编码追根溯源

Transformer升级之路:2、博采众长的旋转式位置编码

Transformer升级之路:3、从Performer到线性Attention

Transformer升级之路:4、二维位置的旋转式位置编码

Transformer升级之路:5、作为无限维的线性Attention

Transformer升级之路:6、旋转位置编码的完备性分析

Transformer升级之路:7、长度外推性与局部注意力

Transformer升级之路:8、长度外推性与位置鲁棒性

Transformer升级之路:9、一种全局长度外推的新思路

Transformer升级之路:10、RoPE是一种β进制编码

Transformer升级之路:11、将β进制位置进行到底

Transformer升级之路:12、无限外推的ReRoPE?

Transformer升级之路:13、逆用Leaky ReRoPE

Transformer升级之路:14、当HWFA遇见ReRoPE

Transformer升级之路:15、Key归一化助力长度外推

Transformer升级之路:16、“复盘”长度外推技术

Transformer升级之路:17、多模态位置编码的简单思考

Transformer升级之路:18、RoPE的底数选择原则

Transformer升级之路:19、第二类旋转位置编码

Transformer升级之路:20、MLA好在哪里?(上)

Transformer升级之路:21、MLA好在哪里?(下)

NBCE:使用朴素贝叶斯扩展LLM的Context处理长度

关于NBCE方法的一些补充说明和分析

Naive Bayes is all you need ?

缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA

线性Transformer应该不是你要等的那个模型

时空之章:将Attention视为平方复杂度的RNN

线性注意力简史:从模仿、创新到反哺

重温SSM(一):线性系统和HiPPO矩阵

重温SSM(二):HiPPO的一些遗留问题

重温SSM(三):HiPPO的高效计算(S4)

重温SSM(四):有理生成函数的新视角

LLM

Encoder:

变分自编码器(一):原来是这么一回事

变分自编码器(二):从贝叶斯观点出发

变分自编码器(三):这样做为什么能成?

变分自编码器(四):一步到位的聚类方案

变分自编码器(五):VAE + BN = 更好的VAE

变分自编码器(六):从几何视角来理解VAE的尝试

变分自编码器(七):球面上的VAE(vMF-VAE)

变分自编码器(八):估计样本概率密度

【搜出来的文本】⋅(一)从文本生成到搜索采样

【搜出来的文本】⋅(二)从MCMC到模拟退火

【搜出来的文本】⋅(三)基于BERT的文本采样

【搜出来的文本】⋅(四)通过增、删、改来用词造句

你可能不需要BERT-flow:一个线性变换媲美BERT-flow

关于WhiteningBERT原创性的疑问和沟通

当BERT-whitening引入超参数:总有一款适合你

CoSENT(一):比Sentence-BERT更有效的句向量方案

CoSENT(二):特征式匹配与交互式匹配有多大差距?

利用CUR分解加速交互式相似度模型的检索

CoSENT(三):作为交互式相似度的损失函数

Decoder:

训练1000层的Transformer究竟有什么困难?

局部余弦相似度大,全局余弦相似度一定也大吗?

梯度视角下的LoRA:简介、分析、猜测及推广

Bias项的神奇作用:RoPE + Bias = 更好的长度外推性

对齐全量微调!这是我看过最精彩的LoRA改进(二)

对齐全量微调!这是我看过最精彩的LoRA改进(一)

为什么现在的LLM都是Decoder-only的架构?

《为什么现在的LLM都是Decoder-only的架构?》FAQ

FLASH:可能是近来最有意思的高效Transformer设计

Decoder-only的LLM为什么需要位置编码?

MoE环游记:1、从几何意义出发

MoE环游记:2、不患寡而患不均

MoE环游记:3、换个思路来分配

MoE环游记:4、难处应当多投入

让炼丹更科学一些(一):SGD的平均损失收敛

多任务学习漫谈(一):以损失之名

多任务学习漫谈(二):行梯度之事

多任务学习漫谈(三):分主次之序

多模态

“闭门造车”之多模态思路浅谈(一):无损输入

“闭门造车”之多模态思路浅谈(二):自回归

“闭门造车”之多模态思路浅谈(三):位置编码

LMSYS Corp

官网

SGLang

Mini-SGLang: Efficient Inference Engine in a Nutshell

Flashinfer

子豪的about

FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems

Sorting-Free GPU Kernels for LLM Sampling

FlashInfer 0.2 - Efficient and Customizable Kernels for LLM Inference Serving

Cascade Inference: Memory Bandwidth Efficient Shared Prefix Batch Decoding

Accelerating Self-Attentions for LLM Serving with FlashInfer

陈巍

陈巍 博士

陈巍:DeepSeek V3/R1的架构与训练技术2万字长文分析(上)

陈巍:DeepSeek V3/R1的架构与训练技术2万字长文分析(下)

陈巍:DeepSeek 开源Day(1)-FlashMLA 深入分析

陈巍:DeepSeek 开源Day(2)DeepEP深入分析

陈巍:DeepSeek 开源Day(3)DeepGEMM深入分析

陈巍:DeepSeek 开源Day(4)DualPipe&EPLB深入分析

陈巍:DeepSeek 开源Day(5)3FS&smallpond深入分析

陈巍:DeepSeek 开源Day(6)推理系统概览解读

Anonymous

CUTLASS CuTe GEMM细节分析(一)——ldmatrix的选择

CUTLASS CuTe GEMM细节分析(二)——TiledCopy与cp.async

CUTLASS CuTe GEMM细节分析(三)——Swizzle<B, M, S>模板参数的取值

CUTLASS CuTe GEMM细节分析(四)——谈谈Swizzle模板参数中关于B和S的一些误区

LLM Decode GQA & GEMV算子性能分析(一)

LLM Decode GQA & GEMV算子性能分析(二)

谈一谈TP推理场景下MoE Group GEMM的优化思路

关于CUTLASS Grouped GEMM中Alignment参数的分析

关于现代GPU体系结构内存一致性(Memory Consistency)模型的一些猜想(一)

关于现代GPU体系结构内存一致性(Memory Consistency)模型的一些猜想(二)——同步性能

基于一个MXFP8量化Kernel谈一谈如何在B200上实现高性能的Memory Bound Kernel

在SM8x GEMM类算子中巧用Occupancy优化性能

Pingpong Schedule并不是万能钥匙

关于Pingpong和Cooperative的一些感性理解

基于CUTLASS CuTe分析cp.async的Prefetch行为

NVIDIA GPU Prefetch行为分析

关于Nsight Compute中Compute Workload Analysis反映的Tensor Pipe Utilization的理解

Google Brain

网址 blog

Semantic Data Modeling, Graph Query, and SQL, Together at Last?

语义数据建模、图查询和 SQL,终于要结合在一起了吗?

Algorithms and Theory

Statistical Separations: When do Transformers outperform feed forward and recurrent networks?

Transformer 何时优于前馈网络和循环网络?统计学视角

Distributed Systems and Parallel Computing

Fast ACS: Low-Latency File-Based Ordered Message Delivery at Scale

快速 ACS:大规模低延迟、基于文件的有序消息传递

The ASPLOS 2025 / EuroSys 2025 Contest on Intra-Operator Parallelism for Distributed Deep Learning

ASPLOS 2025 / EuroSys 2025 分布式深度学习算子内并行性竞赛

Vortex: A Stream-oriented Storage Engine For Big Data Analytics

Vortex:面向大数据分析的流式存储引擎

Machine Intelligence

InstructPipe: Generating Visual Blocks Pipelines with Human Instructions and LLMs

InstructPipe:利用人类指令和 LLM 生成可视化模块流水线

Contextual Agent Security: A Policy for Every Purpose

上下文代理安全:适用于各种目的的策略

Natural Language Processing

Sufficient Context: A New Lens on Retrieval Augmented Generation Systems

充分的背景信息:检索增强生成系统的新视角

Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting

推测性 RAG:通过草拟增强检索增强生成

Microsoft Research

Publications index

New Future of Work Report 2025

2025年未来工作新报告

Artificial intelligence

Serving Models, Fast and Slow:Optimizing Heterogeneous LLM Inferencing Workloads at Scale

快速与慢速服务模型:大规模优化异构 LLM 推理工作负载

DroidSpeak: Efficient Context Sharing for Multiple-LLM Inference

DroidSpeak:用于多 LLM 推理的高效上下文共享

Exqutor: Extended Query Optimizer for Vector-augmented Analytical Queries

Exqutor:面向向量增强分析查询的扩展查询优化器

SIT-Graph: State Integrated Tool Graph for Multi-Turn Agents

SIT-Graph:多回合代理的状态集成工具图

ModServe: Modality- and Stage-Aware Resource Disaggregation for Scalable Multimodal Model Serving

ModServe:面向可扩展多模态模型服务的模态和阶段感知资源分解

From Models to Operators: Rethinking Autoscaling Granularity for Large Generative Models

从模型到算子:重新思考大型生成模型的自动扩展粒度

DocReward: A Document Reward Model for Structuring and Stylizing

DocReward:一种用于结构化和风格化的文档奖励模型

RISELab

全体起立!Ion Stoica's Home Page

Luis Ceze

xKV: Cross-Layer SVD for KV-Cache Compression

xKV:用于键值缓存压缩的跨层奇异值分解

TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval

TeleRAG:基于前瞻检索的高效检索增强生成推理

Palu: KV-Cache Compression with Low-Rank Projection Palu

基于低秩投影的键值缓存压缩

Shivaram Venkataraman(University of Wisconsin-Madison)

CMU Catalyst

Catalyst的paper都是一簇一簇发的,感觉除了那几个顶会,其他顶会的都不发了

Tianqi Chen

Beidi Chen

MagicPIG: LSH Sampling for Efficient LLM Generation.

MagicPIG:用于高效生成 LLM 的 LSH 采样

MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding.

MagicDec:利用推测性解码打破长上下文生成的延迟-吞吐量权衡

Zhihao Jia

AdaServe: Accelerating Multi-SLO LLM Serving with SLO-Customized Speculative Decoding.

AdaServe:通过 SLO 定制的推测性解码加速多 SLO LLM 服务

Helix: Serving Large Language Models over Heterogeneous GPUs and Network via Max-Flow.

Helix:通过 Max-Flow 在异构 GPU 和网络上提供大型语言模型服务

MIT DSAIL Lab

Song Han

Transitive Array: An Efficient GEMM Accelerator with Result Reuse

传递数组:一种高效的 GEMM 加速器,支持结果重用

Qserve: W4a8kv4 quantization and system co-design for efficient llm serving Qserve

W4a8kv4 量化和系统协同设计,实现高效的 llm 服务

Tim Kraska

Deep Research is the New Analytics System: Towards Building the Runtime for AI-Driven

深度研究是新的分析系统:构建人工智能驱动分析的运行时环境

Piperag: Fast retrieval-augmented generation via adaptive pipeline parallelism Piperag

通过自适应流水线并行实现快速检索增强生成

Sky lab

Matei Zaharia

web

MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs

MoE-Lightning:在内存受限的 GPU 上实现高吞吐量的 MoE 推理

Scalable Parallel Computing Laboratory (SPCL)

Torsten Hoefler web

Demystifying Chains, Trees, and Graphs of Thoughts

揭秘思维链、思维树和思维图

Affordable AI Assistants with Knowledge Graph of Thoughts

价格亲民的 AI 助手,具备思维知识图谱

Confidential LLM Inference: Performance and Cost Across CPU and GPU TEEs

机密 LLM 推理:CPU 和 GPU TEE 的性能和成本

Multi-Head RAG: Solving Multi-Aspect Problems with LLMs

多头 RAG:利用 LLM 解决多方面问题

Higher-Order Graph Databases

高阶图数据库