rag 的三个过程:
检索阶段:从外部知识库中提取任务相关的内容
整合阶段:对检索内容进行去重、冲突解决和重新排序
生成阶段:基于精选上下文进行推理以得出最终答案。
综述围绕两个过程来讲(RAG ⇔ Reasoning):
Reasoning-Enhanced RAG:映射高级推理如何优化RAG的每个阶段
RAG-Enhanced Reasoning:展示不同类型检索知识如何为复杂推理提供缺失前提并扩展上下文
最后说说新兴的协同RAG-推理框架

文章结构
存在的问题:
静态参数应付不了动态问题
复杂推理的数据存在huan'j
所以会形成知识缺失会阻碍推理过程,而推理缺陷又会妨碍知识应用
前期的解决方法:
通过推理优化RAG流程的特定环节
通过引入外部事实依据或上下文线索来增强大型语言模型的推理能力
但是其缺点也很明显:
静态的处理仅能对单个组件进行局部优化。
复杂任务中检索的充分性和准确性难以保证,
复杂任务的内容出现矛盾会造成负面影响
这些问题在deepsearch这项任务中无法解决。

文章分类
下面是对上图的详细解释:
推理能增强RAG主要是优化RAG的检索、整合和生成三个RAG的流程。
在检索阶段,常见的优化环节是:
推理驱动的检索重构
检索策略与规划
检索模型优化
对于检索的优化思路:
将复杂检索拆解为更简单的子检索
将模糊检索转化为更清晰的表述(有RL的方法来优化)
通过CoT推理技术实现检索扩展,从而增强查询的语义丰富度
对于检索策略的优化:
采用CoT框架进行多步骤规划,有效规避局部最优问题。
过知识图谱微调大模型,实现关系结构编码。
用分类器评估查询复杂度并选择检索策略,减少冗余调用。
引入实体热度和问题类型等特征。
对于检索器本身的增强:
利用结构化知识:图神经网络知识图谱(GNN-RAG)或者符号规则(RuleRAG)
整合显式推理:将CoT与查询语句结合
在整合阶段,常见的优化环节有:
相关性评估
信息综合
在相关性评估和过滤中,常见的方法有:
采用专家评估机制,筛选出忠实、有用且简洁的证据,同时剔除无关内容:SEER
使用NLI模型过滤非蕴含段落,进而对混合相关/无关上下文进行微调,帮助忽略残余噪音
在信息融合的优化方法中:
枚举子问题答案组合并运用概率推理进行聚合:BeamAggR
将推理增强查询与渐进式知识聚合相结合,检索到的信息再进行动态组合:DualRAG
构建推理图谱,在每个节点进行知识检索、评估和聚合,并在生成前动态选择知识充分性路径:CRP -RAG
在生成内容阶段,常见的优化环节有:
上下文感知
基于事实的生成控制
在上下文感知的优化方法中:
采用稀疏专家混合模型动态选择知识模块:Open-RAG
通过在提示中添加领域知识,促使模型更多依赖外部上下文:RARE
逐步对比段落相关性生成对比性解释,引导模型得出准确结论
通过顺序选择和验证证据,构建结构化的推理链条:Self-Reasoning
在控制生成内容的优化中:
事实一致性:Self-RAG的在解码过程中引入反思标记,触发关键性审查与修正
链接生成内容与原始资料:RARR的保持风格连贯性的同时插入引用
每个推理步骤都严格遵循检索证据:trace通过构建知识图谱形成连贯的证据链,AlignRAG运用批评对齐技术优化推理路径
RAG增强推理主要是靠整合外部知识或上下文知识,这能有效帮助大模型减少幻觉并填补逻辑漏洞。
外部检索通过利用数据库或网页内容等结构化资源,为模型提供事实依据,如IAG
上下文检索则借助先前交互或训练样本等内部信息,增强推理过程的上下文连贯性,如RA-DT
外部知识检索主要是有效填补知识空白。定向检索能提升事实准确性,
对于原有知识库的设计优化:
在QA推理任务中,检索通用知识库中的关联事实条目来增强序列推理能力,如AlignRAG和MultiHopRAG。
在数学方法推理任务中,利用定理库中的形式引理进行结构化推理, 如Premise-Retrieval和ReaRAG
在法律推理任务中,通过提取司法判例进行类比推理,如casegpt和CBR-RAG
在代码生成任务中,通过访问代码库中的代码片段来确保语法正确性,如CodeRAG和Koziolek
在Web检索优化方面:
在事实核查任务,通过新闻或社交媒体的证据来逐步验证论点,如VeraCT Scan、Ragar、PACAR、steel
基于问答的推理方法, 通过迭代优化推理过程,利用广泛的网络内容整合复杂在线资料来提升情境感知和稳健推理能力,如RARE、RAG-Star、MindSearch和OPEN-RAG
在医学推理等专业领域过检索文献来实现精准诊断,如FRVA和ALR2
在使用tools情况下:
调用计算器或API:ReInvoke、Avatar、ToolkenGPT、ToolLLM、llm-tool-use
在科学建模场景中整合了符号计算工具:sciagent和trice
通过 OSCAT 库检索代码文档:RAR
调用模型自身的内部经验或从演示数据、训练数据中提取的示例来指导推理过程。主要是通过先验知识和训练数据的样例来说明。
经验记忆是指模型内部存储的过往交互记录或成功策略:
在涉及规划与决策的任务中,例如机器人路径规划过调用历史决策和强化信号实现序列推理。如RAHL和RA-DT
对于交互式推理任务,能动态调取多模态交互记录和对话历史,如:Jarvis-1、RAP和EM-LLM
在逻辑推理领域,CoPS通过调取医疗和法律领域的结构化案例,实现医疗和法律场景中的稳健逻辑推理。
与依赖先验经验的方法不同,基于示例的推理会从演示数据或训练数据中提取外部示例。
在复杂文本理解领域,RE4利用标注好的句子对来增强关系识别能力
针对问答式推理,OpenRAG、uprise、MoD和Dr. ICL会选择与查询高度匹配的示例,从而提升泛化能力
在代码生成任务中,PERC通过语义或结构相似性从HumanEval等数据集检索伪代码,确保与目标代码保持一致。
许多现实世界问题都需要采用迭代式方法——新证据不断优化推理过程,同时推理结果也持续反哺证据收集。
现有方法中的两大优化思路:推理工作流,强调多步骤推理中结构化、常预设的推理格式。以及智能体编排,关注智能体如何与环境互动并协同运作。
推理工作流可分为链式、树状和图式三种类型。
在链式中,思维链(CoT)将推理过程构建为一系列中间步骤的线性序列:
在推理步骤之间穿插检索操作,IRCoT和Rat
验证链机制,通过检索参考文献来检查并修正每个推理步骤。CoV-RAG
为了减少噪音,微调LLMs使其忽略干扰文档。RAFT
引导模型对检索文档进行连续的“阅读笔记”记录,从而过滤掉无用信息。Chainof-Note
在树状推理的方法通常采用思维树(ToT)或蒙特卡洛树搜索(MCTS)两种方案:
检索增强型思维树RATT,可同步评估多个推理轨迹,避免大型语言模型因早期错误假设而陷入困境
应用于处理模糊问题(金等人,2023)、覆盖不同诊断可能性(杨和黄,2025)以及构建复杂故事(温等人,2023)
基于蒙特卡洛树搜索的方法是采用概率树搜索,根据启发式概率动态调整探索优先级。AirRAG、MCTS -RAG、SeRTS
为确保检索与推理质量AirRAG引入自洽性检查机制
MCTS -RAG则整合自适应 MCTS 检索技术以优化证据并减少幻觉现象
在图思维链中主要依赖图学习技术进行信息检索与推理。
PullNet、QA-GNN和GreaseLM直接整合图神经网络,通过迭代聚合邻近节点信息,在建模图结构数据中固有的复杂关系方面表现出色。
SR、LightRAG和StructRAG等方法采用轻量级图谱技术,如向量索引和PageRank,高效实现多跳上下文检索与推理,为大型语言模型提供高质量的结构化内容。
智能体编排主要分为单agent和mulit-agent
单agent主要分出几个范式:
推理和行动分离的ReAct范式引导LLM在推理步骤与数据库检索等外部工具交互之间进行显性切换。
Self-Ask和IRCoT等方法通过“搜索”等显性指令触发外部检索,促使模型递归构建并回答子问题,从而在“思维链”中实现逐步检索与推理的交替进行。
结合自我反思策略的DeepRAG和Self-RAG则赋予大型语言模型自我审视能力,
在微调里
Toolformer和inters通过在基于指令或合成数据集上进行监督微调(SFT)的大型语言模型,开创了搜索与推理相结合的互补性方法。
inters通过将现有数据集转换为指令格式,实现模型微调以提升泛化能力和类人推理能力
在强化学习里,驱动的方法通过奖励信号激励智能体的行为——包括搜索内容、整合证据及终止时机——为优化答案质量提供机制,旨在解决复杂知识密集型任务,如deep search
WebGPT和RAG-RL等通过基于事实准确性或人类偏好奖励输出
训练agent在嘈杂的现实条件下探索、反思并自我修正
Search-R1在推理过程中学习生成 <search> 标记,而R1-Searcher则基于强化学习驱动的搜索方法,展现出跨领域的强泛化能力。
Deep-Researche更进一步,推出了首个与开放网络交互的端到端强化学习训练研究agent。
ReSearch和ReARTeR应对了更深层次的挑战:不仅生成正确答案,还要使推理步骤同时具备事实性和可解释性。
MA有两种架构:集中式架构(通过管理者-工作者模式整合集体智慧),也有分布式架构(通过角色专用智能体互补能力实现协同)
分布式的去中心化架构通过部署多个智能体协同执行检索、推理和知识整合,旨在扩大相关信息的覆盖范围,并充分发挥各专业智能体的异质优势。
Collab-RAG和RAG-KG-IL通过整合不同模型能力,并在推理和知识整合中分配不同角色。
MDocAgent采用文本与图像智能体组成的团队来处理基于文档的问答任务
吴等人,2025c该框架整合了搜索、计算和结构化推理的工具智能体,协同完成复杂分析任务。
集中式架构的集中式控制与层级化流水线机制能有效提升多智能体RAG推理系统的效率与适应性。
HM-RAG和SurgRAW均采用分解-检索-决策架构,不同智能体角色分别负责多模态处理或手术决策等子任务。
吴等人与伊安内利等人分别强调动态路由与系统重构能力,实现基于任务相关性或资源约束的智能体智能选择。
Chain of Agents与匝道合并协同多智能体控制框架展示了通过分层处理实现长上下文摘要或策略优化的层级化设计
多步推理的延迟问题,可以通过思想提炼和长度惩罚机制对推理深度进行战略控制或者用剪枝构建轻量化RAG系统
高效的查询,可以通过缓存机制和自适应检索
干净高效可进化的人机交互界面
多模态的检索和信息分析
agent系统的可信度和鲁棒能
本文将探讨情境工程的背景,主要就是讨论一个问题:如何通过有效的上下文机制,特别是针对长期任务,让机器更好地理解并执行人类意图?
故此文章从头开始梳理了人和机器的认知能力的变化过程:

例如,当用户在Gemini CLI 1中输入“搜索相关文档”时,相关实体可能包括用户、Gemini CLI应用程序、终端环境、外部工具、内存模块和后端模型服务。其中,字符(e)可描述用户(如输入提示)、应用程序(如系统指令或配置)、环境(如当前工作目录)、外部工具(如可用插件或搜索工具)、短期或长期记忆模块(如会话历史或存储知识),以及模型服务(如支持功能或响应格式)