
在每一轮中,代理仅使用上一轮中最重要的输出来重建一个精简的工作空间。在这个专注的工作空间中,代理会分析问题,将关键发现整合成一个不断演变的核心报告,然后决定下一步行动——是收集更多信息还是提供最终答案
多个研究代理使用 IterResearch 流程并行探索同一个问题。最终的综合代理会整合这些代理的完善报告和结论,从而得出更全面的最终答案。这种并行结构使模型能够在有限的上下文窗口内考虑更广泛的研究路径,从而将其性能推向极限。
• 自动数据管理: 数据是提升模型能力的核心驱动力,其重要性甚至超越算法。数据的质量直接决定了模型通过自我探索推广到非分布场景的能力上限。为了应对这一挑战, 我们在训练动态的指导下实时优化数据。 这种优化是通过全自动数据合成和过滤流程实现的,该流程可以动态调整训练集。通过数据生成和模型训练之间的闭环,这种方法不仅确保了训练的稳定性,还带来了显著的性能提升。
周期性上下文摘要
ReSum 定期调用摘要工具来压缩历史记录,并从压缩 的摘要中恢复推理,从而实现无限探索。
一个对上下文太长问题的尝试
解决小模型摘要能力不强
主要贡献
压缩触发器