Search-r1 | Notion

RL 应用于检索与推理场景面临三大挑战：

为解决上述挑战，我们提出了 SEARCH‑R1，一个使 LLM 能够在自我推理过程中交替使用搜索引擎的新型 RL 框架。其主要创新包括：

将搜索引擎视为环境的一部分：采样的轨迹序列交替进行 LLM 生成与搜索引擎检索，使算法兼容 PPO 和 GRPO 等多种 RL 方法，并通过对检索令牌进行损失掩蔽实现稳定优化。
支持多轮检索与推理：模型通过特殊标记 <search> 和 </search> 来显式触发搜索引擎，检索内容用 <information> 包裹，推理步骤用 <think> 包裹，最终答案用 <answer> 包裹，从而实现结构化的迭代决策。
采用简单的基于结果的奖励函数：避免复杂的过程奖励。实验表明这种最小化奖励设计在检索与推理场景下效果良好。

整合搜索引擎主要有两种方式：

检索增强生成（RAG）：该方法按照检索与生成的顺序运行，先根据输入查询检索相关信息，然后与查询串联后送入 LLM 生成答案。这种方法可能检索到无关内容或无法提供足够有用的上下文。
将搜索引擎作为工具：模型被提示或微调以主动调用搜索引擎。IRCoT 和 ReAct 通过提示引导多轮推理与检索；Toolformer 通过监督微调增强检索能力。然而这些方法依赖难以规模化获得的高质量标注轨迹。最新研究表明，强化学习仅利用结果奖励就能让 LLM 学会高级推理技能，但在搜索引擎调用场景下这一潜力尚未被充分探索。

也用musk 检索内容 * 0 ，llm生成的token * 1

检索令牌的损失掩蔽。在 PPO 和 GRPO 中，损失在整个轨迹上按令牌计算。SEARCH‑R1 的轨迹既包含模型生成的令牌，也包含从外部文档检索的令牌。优化检索令牌会导致不必要的学习动态，因此我们仅对模型生成的令牌计算梯度，对检索内容进行损失掩蔽，稳定训练同时保留检索增强生成的灵活性。

仅基于结果的规则奖励来指导 SEARCH‑R1 的训练，没有格式奖励，完美搭配PPO\GRPO