RL 应用于检索与推理场景面临三大挑战:
- RL 框架与稳定性:如何在强化学习中有效嵌入搜索引擎并保障训练稳定,特别是在引入检索内容时。
- 多轮交替的推理与检索:理想的模型应能在推理过程中多次调用搜索引擎,并根据问题复杂度动态调整检索策略。
- 奖励设计:针对检索与推理任务设计有效的奖励函数仍是一项基础难题,尚不清楚简单的基于结果的奖励是否足以引导模型学习有意义且一致的检索行为。
为解决上述挑战,我们提出了 SEARCH‑R1,一个使 LLM 能够在自我推理过程中交替使用搜索引擎的新型 RL 框架。其主要创新包括:
- 将搜索引擎视为环境的一部分:采样的轨迹序列交替进行 LLM 生成与搜索引擎检索,使算法兼容 PPO 和 GRPO 等多种 RL 方法,并通过对检索令牌进行损失掩蔽实现稳定优化。
- 支持多轮检索与推理:模型通过特殊标记
<search> 和 </search> 来显式触发搜索引擎,检索内容用 <information> 包裹,推理步骤用 <think> 包裹,最终答案用 <answer> 包裹,从而实现结构化的迭代决策。
- 采用简单的基于结果的奖励函数:避免复杂的过程奖励。实验表明这种最小化奖励设计在检索与推理场景下效果良好。
整合搜索引擎主要有两种方式:
- 检索增强生成(RAG):该方法按照检索与生成的顺序运行,先根据输入查询检索相关信息,然后与查询串联后送入 LLM 生成答案。这种方法可能检索到无关内容或无法提供足够有用的上下文。
- 将搜索引擎作为工具:模型被提示或微调以主动调用搜索引擎。IRCoT 和 ReAct 通过提示引导多轮推理与检索;Toolformer 通过监督微调增强检索能力。然而这些方法依赖难以规模化获得的高质量标注轨迹。最新研究表明,强化学习仅利用结果奖励就能让 LLM 学会高级推理技能,但在搜索引擎调用场景下这一潜力尚未被充分探索。
也用musk 检索内容 * 0 ,llm生成的token * 1
检索令牌的损失掩蔽。在 PPO 和 GRPO 中,损失在整个轨迹上按令牌计算。SEARCH‑R1 的轨迹既包含模型生成的令牌,也包含从外部文档检索的令牌。优化检索令牌会导致不必要的学习动态,因此我们仅对模型生成的令牌计算梯度,对检索内容进行损失掩蔽,稳定训练同时保留检索增强生成的灵活性。
仅基于结果的规则奖励来指导 SEARCH‑R1 的训练,没有格式奖励,完美搭配PPO\GRPO