R1-Searcher | Notion

核心思想是通过奖励设计激励模型主动使用检索：
- 无需蒸馏或冷启动
两阶段强化学习
- 第一阶段只关心模型是否调用检索系统，不考虑答案准确性。通过设置检索奖励和格式奖励，让模型尽快学会正确的检索调用格式。
  - 检索奖励：如果模型至少调用一次检索，就给予 0.5 奖励；否则奖励为 0。
  - 格式奖励：要求模型的思考和答案分别放在 <think> 和 <answer> 标签中，且答案简短；生成内容不得包含乱码；检索查询必须使用 <begin_of_query> 标签封装，且不得在未检索的情况下生成文档。满足格式规定奖励 0.5，否则为 0。
- 第二阶段引入答案奖励，引导模型在推理过程中有效利用检索系统得到正确答案。
  
  阶段 2：答案奖励与格式惩罚。
  
  第二阶段取消检索奖励，引入答案奖励并修改格式惩罚规则。格式正确时奖励为 0；格式错误时惩罚 −2。答案奖励采用预测答案和参考答案的 F1 分数：
  
  Ranswer=2×INPN+RN,R_{\text{answer}} = \frac{2 \times \text{IN}}{P_N + R_N},Ranswer=PN+RN2×IN,
  
  其中 PNP_NPN 是预测答案的词数，RNR_NRN 是参考答案的词数，IN\text{IN}IN 是二者交集的词数。阶段 2 的总奖励为答案奖励加格式奖惩。
R1‑Searcher：一个两阶段的强化学习框架，允许模型在推理过程中自主调用检索。
针对多跳数据集

多跳”数据集（multi-hop dataset）

“多跳”在这里指的是 需要多个推理步骤／链条 来从不同信息源拼凑出答案的数据集。相比“单跳”（single-hop）只需要从一个段落／文档直接抽取答案，多跳任务要跨文档、跨段落、甚至跨知识结构。具体来说：
- 在多跳问题（multi-hop QA）中，题目不能仅靠一个文档就解决，而是：先找到文档 A 得到部分信息，再用这个信息去查文档 B 得到更多信息，最终合并得出答案。 arXiv+2arXiv+2
- 多跳数据集：专门构造／挑选出这样的问题 + 多文档证据，以评估模型的“跨证据检索 + 合理推理”能力。比如 2WikiMultiHopQA 就是这种类型。 arXiv+1
- 为啥重要：因为现实中很多问题不是一句话／一个文档就能解决的，模型如果只能“查一个文档”就结束，那它的推理能力有限。多跳任务能更好测试模型的复杂推理能力。

训练／评估上的挑战：

检索：需要找到多个相关文档。 Medium+1
融合推理：如何把不同来源的信息串起来。德克萨斯大学计算机科学系
避免“捷径”：模型不能只凭一篇文档就猜答案，否则就变成没意义的“多跳”了

针对多跳数据集

多跳”数据集（multi-hop dataset）