此前的工作

ToRL

我们采用基于规则的奖励函数:答案正确则奖励 1 分,错误则扣 1 分。此外,代码解释器会反馈代码是否可执行。根据可执行性与解题准确率的相关性,我们加入了执行惩罚:响应中包含不可执行代码时,奖励降低 0.5 分。

奖励表

属性 奖励值
答案正确 1
答案错误 –1
代码可执行 0
代码不可执行 –0.5

通过上述奖励设计,模型不仅关注答案正确性,还会受到代码执行质量的影响,这有助于其学习生成更准确且可执行的代码。

训练