做这期blog的动机很简单,分享一下自己如何快速的上手某个领域的论文。最核心的三个步骤我觉得分别是: 确定自己研究领域的key words,这里是要从上到下的,如LLM -> 微调 和 CoT 确定自己需要研究的题目,如 如何确定CoT的某个环节有益于微调中得到高的得分 根据“and”的检索思想,从
LLM 推理与服务优化 (LLM Inference and Serving Optimization) KV 缓存管理和优化 (KV Cache Management and Optimization) 这些论文聚焦于 KV 缓存的减少、量化或重用,以提升生成推理效率和降低内存消耗。
code cli
context engineering
ACM
算法
算法竞赛
vllm
AMD算子挑战赛
github
inference
LLM
CUDA入门到入土
cuda/Triton
MLsys24
paper
blog
默认分类