RL 应用于检索与推理场景面临三大挑战:

为解决上述挑战,我们提出了 SEARCH‑R1,一个使 LLM 能够在自我推理过程中交替使用搜索引擎的新型 RL 框架。其主要创新包括:

  1. 将搜索引擎视为环境的一部分:采样的轨迹序列交替进行 LLM 生成与搜索引擎检索,使算法兼容 PPO 和 GRPO 等多种 RL 方法,并通过对检索令牌进行损失掩蔽实现稳定优化。
  2. 支持多轮检索与推理:模型通过特殊标记 <search> 和 </search> 来显式触发搜索引擎,检索内容用 <information> 包裹,推理步骤用 <think> 包裹,最终答案用 <answer> 包裹,从而实现结构化的迭代决策。
  3. 采用简单的基于结果的奖励函数:避免复杂的过程奖励。实验表明这种最小化奖励设计在检索与推理场景下效果良好。

整合搜索引擎主要有两种方式:

  1. 检索增强生成(RAG):该方法按照检索与生成的顺序运行,先根据输入查询检索相关信息,然后与查询串联后送入 LLM 生成答案。这种方法可能检索到无关内容或无法提供足够有用的上下文。
  2. 将搜索引擎作为工具:模型被提示或微调以主动调用搜索引擎。IRCoT 和 ReAct 通过提示引导多轮推理与检索;Toolformer 通过监督微调增强检索能力。然而这些方法依赖难以规模化获得的高质量标注轨迹。最新研究表明,强化学习仅利用结果奖励就能让 LLM 学会高级推理技能,但在搜索引擎调用场景下这一潜力尚未被充分探索。

也用musk 检索内容 * 0 ,llm生成的token * 1

检索令牌的损失掩蔽。在 PPO 和 GRPO 中,损失在整个轨迹上按令牌计算。SEARCH‑R1 的轨迹既包含模型生成的令牌,也包含从外部文档检索的令牌。优化检索令牌会导致不必要的学习动态,因此我们仅对模型生成的令牌计算梯度,对检索内容进行损失掩蔽,稳定训练同时保留检索增强生成的灵活性。

仅基于结果的规则奖励来指导 SEARCH‑R1 的训练,没有格式奖励,完美搭配PPO\GRPO