0. 范式和对齐 范式的思考有非常多种,这种类似族谱一样的思考如果要挑一种思考的line,最好想的就是从简易demo到最丰富的功能系统的思考line。 比如说这种分类模式: Strict Chain(严格链) 每次 1 个任务 → 1 个返回。对齐主要靠索引k。 Chain + Evidence P
0. 承上启下 环境有隐状态s_t,智能体看到观测o_t,执行动作a_t,环境转移并给新观测。用 (PO)MDP 写为: s_{t+1}\sim P(\cdot\mid s_t,a_t),\quad o_t\sim O(\cdot\mid s_t),\quad a_t\sim\pi(\cdot\mi
0. 数模 最基础的抽象是:环境有状态s_{t},你能看到的是观测o_{t},你做动作a_{t},环境给反馈(比如奖励/成功信号)并转移到新状态。用 (PO)MDP 写就是: s_{t+1}\sim P(\cdot\mid s_t,a_t),\quad o_t\sim O(\cdot\mid s_t
agent
code cli
context engineering
ACM
算法
算法竞赛
vllm
AMD算子挑战赛
github
inference
LLM
CUDA入门到入土
cuda/Triton
MLsys24
paper
blog
默认分类