
本文的主要内容是Lu Ang和Xie Ruobing。卢安(Lu Ang)是中国人民大学的一项医生研究。他的研究方向是语言模型结构的发展,他的主管是Yan Rui教授。 Xie Ruobing是Tencent的高级研究员。他的研究方向是一种巨大的语言和推荐系统模型。在最近的角色中,人民人大学和腾讯的研究人员的研究表明,语言模型将在强化研究中牢固地奖励噪音,甚至很大一部分奖励(例如,正确的答案为0分,错误答案的1分),这将不会显着影响下游活动的表现。研究人员解释说,通过研究加强来改善下游任务的关键不仅是奖励的准确性,而且该模型也可以产生高质量的思维过程。语言模型仍然可以达到很高的峰值性能In仅通过奖励关键词的频率在思考奖励模型的输出时,而不是基于正确答案奖励。它表明,对强化的教育可以改善花的流动任务,从允许模型学会采用适当的思维途径来接近正确的答案。该模型获得了解决训练阶段的相关基本问题。因此,在训练阶段提高功能仍然很重要。研究人员还展示了基于思维模式的极简主义奖励如何有效奖励模型,从而增强了在开放的NLP活动中语言模型的性能,并使较小的模型能够成功地通过研究增强来成功获得思考的能力。纸张地址:https://huggingface.co/papers/2505.22653代码链接:https://github.com/trestad/noisy-ewards-ewards-ewards-inwards-inwords-in-学习 - 学习纸概述纸张概述作者,以人为地控制奖励噪声(例如,通过根据答案旋转奖励结果,错误的答案是1分),这很方便研究。当训练QWEN-2.5-7B模型时,实验发现,尽管P值很高,但该模型在任务中的性能降低了。当P值达到50%时,训练的影响才开始崩溃(即完全随机的奖)。这种现象提出了一个重要的问题:即使模型给出了错误的答案并获得回报,培训的影响为什么保持不变?图1:QWEN-2.5-7B的准确性更改为Math-500数据集后,水平轴是训练步骤的数量。为了响应这种现象,一组提出了一个可能的解释:即使答案不正确,某些输出信息仍然为模型输出提供奖励金额。研究人员认为,这些重要信息可以反映在模型的思维过程中ESS。当该模型生成像“首先”这样的模型时,“我必须”,“想象思想模式,我将”,“给定这些因素”,“最后”等时,思维本身应该在QWEN-2.5-7B中考虑这些关键字的最终思想,以非常同步的任务,没有奖励(RPR)。模型输出包含以这种高频率的关键字,相应的奖励是根据随后的实践中发生的频率给出的,那些在研究的情况下,那些拒绝起源于RPR的情况下,该拒绝源于RPR的时间太长,无法获得正确的答案,以表明语言模型的改进语言的改善,该语言的改善来自语言的转换语言的转换。输出不是获得新知识:在RL期间具有良好心态模式的输出示例的模型,这可能会增加模型成为Authorsa迹象的可能性是正确的答案。 OUTPUT通常包含噪音。经过培训,QWEN-2.5-7B接受了这些模型的培训。流程和5月 - 选择了不同的培训步骤的检查点,作为培训的奖励模型。当使用%时,通过不同奖励模型训练的语言模型在任务中具有相似的主观测试分数。这种现象与对数学活动的观察结果一致,表明语言模型可以忍受一定程度的奖励噪声。但是,当奖励模型的准确性低于75%时,训练的影响会大大降低。当准确率降低到65%时,模型的性能明显比使用具有高精度的奖励模型训练获得的结果明显差。这可能指出了这项工作中对QWEN-2.5-7B噪声的公差极限。图4:通过各种奖励模型在HelpSeer3活动中培训的语言模型的主观评论的表现。在许多应用程序情况下,我们不需要追求奖励模型的高精度,因为在某个关键点之后,奖励模型的准确性的进一步提高是有限的工作表现。那些仍然必须设置如何增强现有奖励模型以改善任务的人,如果他们实际上没有获得“足够好的奖励模型?因此,有建议的奖励模型建议由RPR提出:如果输出是奖励模型低的奖励模型,但要通过低得分来付费(即,根据较高的RPR得分),这是一个不错的奖励,那就是付出的奖励,这是一个不错的奖励,这是一个奖励,这是一个不错的成绩,这是一个不错的成绩,就可以付出一定的成果,而成绩的成绩是付出的,就可以付费。思考模式。85%准确性的ARD模型是,量化,该模型在流动流的任务中的性能进一步增强,这将破坏那些设定的人拥有的奖励模型的质量。图5:RPR映射后,由所有奖励模型训练的语言模型的质量是Napabuti。作者的另一个重要发现是,即使使用最准确的奖励模型(精度为85%)具有作者,但QWEN-2.5-3B具有HelpSteer3工作培训崩溃,这是在输出长度上急剧崩溃的,仅留下数十个令牌。但是,经过RPR校准后,3B模型成功地完成了培训,避免了崩溃并取得了良好的结果,并且在许多复杂的开放活动中,例如根据指示进行PPT,它显示了解决问题的好主意。图6:奖励RPR的RPR RPR之后,也可以成功习惯3B模型来帮助操作工作。尽管使用未命名的奖励模型,RL崩溃了。研究人员期望强调,强化研究语言模型的影响更多地是在改变其输出风格和发展良好的思维模式,而不是通过仅根据奖励和RPR使用来显示语言模型的稳定性来传授新知识。此外,思考模式的重要性在实践中使用经过证明的奖励奖励模型,并且在加强研究后也提供了改善培训算法的新想法。 The author points out that enhancement of pre-training technology technology is still eligible for continuing investment, because if the study study focuses only on the cultivation of thought patterns, the ability of the pre-training phase model will still develop a bottleneck for flowing activities (for example, Llama3 ExperimentalTikulo shows that because the Llama3 pre-training model is difficult to produce higher-minded paths, pre-training performance in路径的性能,每个任务都小于QWEN模型)。