AI是否必须认为“像人类”吗? Alphaone宣布了属于
发布时间:2025-06-26 10:27
本文的联合火灾作者是张朱尤(Zhang Junyu)和东朗佩(Dong Runpei),他分别是Urbana-Champaign伊利诺伊大学计算机科学的研究生兼计算机科学专业的学生;这项研究工作是在伊利诺伊大学的Zhang Huan教授到Urbana-Champaign的指导下完成的。 “最有效的慢思维形式是需要您快速思考的人。” - 曼尼尔·卡尼曼(Maniel Kahneman),《思考》(Thinking),《快速慢》(Fast and Slow)(2011)在节奏思维的问题上,人们长期以来发展了一种独特而复杂的模式。我们习惯于让AI模仿人类思维:首先依靠直觉来快速响应(系统1),然后逐渐输入逻辑推理(系统2);在回应katanuwell时,首先要进行初步判断hniques。最近,UIUC和UC Berkeley的一项新研究表明,模型不应遵循“人类范式”的旧路径。他们提出了一个新的测试时间和监管框架-Alphaone,并提升了该模型应该转到另一侧:慢慢思考,然后是一个快速的原因。纸张标题:alphaone:模型推理思维缓慢而快速到项目时间测试首页:https://alphaone-project.github.io/纸质地址:https://arxiv.org/pdf/2505.24863代码地址:https://github.com.com.com.com.com.com.com.com./astral-wrarphaone traince traince traince。在试验阶段,它仅需要全球推理是已知和控制的超参数α,以显着提高模型理解的准确性,更好地紧凑生成过程。也许是时候再考虑了:AI需要思考“像人类”吗?看似明智的推理确实是不知道停下来的幻想。近年来,诸如Openai O1和DeepSeek-R1等大型理解模型(LRMS)具有M在复杂的理解任务中的重要发展,逐渐具有类似于人类的System-2功能,并在测试阶段积极思考,从而处理需要高级认知的问题。这些模型使用加强学习来训练“缓慢思考”技术,以便它们会自动降低推理的速度,而当该技术将面临复杂的问题,从而实现更好的性能。但是,这种功能自动“慢”真的可靠吗?与人不同,大型模型正在推动像我们在管理过程中一样快速和缓慢的节奏。心理学中描述的System-1和System-2的转换是一个受控的,动态的过程,是Thinky-Lele的第一个法官快速判断,然后在贫困时期振兴了深厚的思想,从而在效率和准确性之间取得了平衡。相反,现有模型通常落入秋天,并产生漫长而无用的推理链。或底漆,末端qui在问题之前,Ckly实际上将打开。其根本原因是该模型无法主动调整推理的节奏,并确保找到“减速”的最佳时间。没有训练的全球推理和调节只能由alphaone完成,α酮的核心是引入一个统一的控制点αmoment:α-摩肌插入bernoulli流程中的“慢速”标记中,然后在未经培训的情况下实现结局,而在未经培训的情况下进行快速思维,然后转向思想的快速思维。在推理过程中的不同推理和调节方法的性能比较。 α1(红色)采用了一种由α控制的“慢速和快速”识别方法。相比之下,α1识别的效率优于单调膨胀的思维S1(黄色)方法,并且通常比单调(紫色)感兴趣的整体性能方法更好。什么是αmoment?大多数存在G技术目前使用固定的缓慢思考机制(例如在末尾强迫长期思维)或一代被压缩的世代。但是,这种设计通常在推理阶段的整体结构的单个模型中缺乏。我们可以在不训练和设计更好的“改变思维的缓慢方法”的情况下增强整个推理过程的演变? Alphaone提供了一个答案:通过引入α -Momment -A联合法规节点,即推理的原因达到了平均思维时间长度α次的位置。在此之前,指导深思熟虑,然后转向快速增长。它不依赖固定阈值或启发式scarsran,而是提供一个绑定,毫无意义的控制接口。 alphaone(α1)一般过程图。在进行α-刺激性之前,该模型坚持用户设定的方法,并使用Bernoulli过程来指导深层推理。 αmoment之后,等待将更换以促进快速思考。 α的数值是指此变化的时机。例如,将α从1.4减少到1.0将以提前缓慢思考结束,并加速帕威特的衰减。在进行α-刺激性之前:α-肌之前思维调节的缓慢机制,α1通过可能性驱动的调节方法逐渐以深层推理的模型引导模型。具体来说,当模型生成暂停结构(例如\ n \ n)时,等待就可以使用一定的可能性 - 这是一个缓慢的移动标记(慢速-REA)Soning Transition Token,它用于清楚地控制对模型思维的缓慢思考。此条目不是固定的次数,而是基于Bernoulli采样过程,其可能性由用户设置调度函数(T)控制。调度调度可以采用多种形式,例如线性拒绝(首先缓慢,然后快速),线性增加(首先缓慢,然后慢慢),指数衰减等。Alphaone采用了一种线性方法来默认情况下衰减 - 在推理的早期阶段,更频繁地思考指南,并在下一阶段逐渐减少干预以防止过度推迟。不同的调度调度时期的视觉αMoment:快速启动思维机制,但另一个挑战如下:如果插入等待,模型可能会陷入“缓慢思考惯性”,并且很长一段时间内永远不会回到良好的理由。为了解决这个问题,alphaone显然结束了αmoment之后的慢速思维:当形成的节点超过αmomment时,随后的所有等待(即,对移动标记的缓慢思考)将被替换为 - 它是一个前面的象征,用于干扰缓慢的思维链。值得注意的是,该模型开始立即回答。由于对惯性的思考缓慢,模型通常无法直接转移到答案的产生阶段。因此,它实际上发挥了作用快速签名的思维思维,用于提醒模型,它应该以重复的推理结束并转向良好的进步。这种机制称为推理的确定性终止,该机制使该模型可以自然地从“深度耗尽”转变为“快速收敛”,以防止推理的不良延迟。从数学到科学问题和答案,α内的方法在哪里?研究团队在六项基本推理活动中进行了系统的实验,涵盖了各种类型,例如解决数学问题,代码世代和理解科学问题。实验摘要的准确性是控制对照的全面铅方法(例如S1和COD)。以1.5b模型为例,α1提高了 +6.15%的精度。值得注意的构想效率优化:尽管思维的机制缓慢,但1.5B模型中α1产生的令牌的平均数量降低了14%,显示了非IN-IN慢速思维的能态优势。哪种“慢速思维方式”是将α1和基线方法的系统性能与数学,代码和科学活动进行比较的最有效问题?比较四种调度技术(持续的调度,线性增量,线性衰减,指数衰减),发现线性衰减在许多活动中取得了最佳表现,证明“首先在加速“加速”控制“由α1采用的控制后,α1采用的控制更有效,在实践中更有效。是否可以调整不同调度技术的αmoment的理由以调整“心理预算”?专业结果表明,α的值调整了模型的“相相”的长度可以有效扩展或压缩。随着α的上升,进入模型的等待标记数量相应增加,思想令牌的平均数量也增加,这反映了αmoment具有良好的可扩展性。墨水预算。但是,推理的准确性不会随着α的增加而继续提高。具有最佳性能的α间隙,并且α1总是比α调节更广泛的发生率中的原始模型更好,表现出良好的稳定性和探索性的能力。对α缩放特性的分析真的更有效吗?在使用REP(推理效率 - 表现)度量系统进行审查之后,发现α1比S1和COD等基线方法具有更好的理解效率的准确性。 慢速思维标记的采样频率如何基于REP指标设置?通过调整,我们发现相位过低或过高的相频率会降低模型的性能,这表明缓慢的思维不应该太小或太密集。但是,α1仍然在频率范围内牢固地表现,这意味着只需要设置中等频率才能带来稳定推理的卵子。   在连续调度下,入口频率缩放率的缩放量表是α-符合人之后思维指南的快速机制吗?如果在αmoment之后未明确说明“缓慢思考的末端”,则该模型容易陷入惯性,从而导致性能显着下降。实验证明,只有依靠前一个慢思考的时期才远远不够。 α1成功地转移了该模型,以通过αmoment之后的显式终止进行快速思考,从而确认了对两阶段调节方法的需求,从快速降低到速度降低以提高推理的有效性。如果能够对αmoment调节机制的影响对特定性能案例的预见,以更直观地理解α1的作用,那么Whoik的人已经显示了来自不同基准的理解案例,这些案例符合使用α1后模型的成功和失败。成功的案例:混合问题化学(奥林匹亚山脉)故障案例:多边形身份推理(AMC23)α内有什么可能性? α1提供了一个新的框架,可以在没有训练的情况下在测试阶段调节推理过程,并最初证明可以显着改善“缓慢思考→快速思考”方法,以实现大型推理影响和效率模型。但是,对“思考”如何成为更好模型的真正理解只是一小步。研究人员提出了一些值得关注的指示:安排思维的更复杂的慢速策略:目前,一种简单的“ Mabagal and速度”监管方法可以进行探索。将来,可以设计更精致的调度,甚至可以独立于推理和监管模块。删除特定标记的希望:在此阶段,该法规通常依赖此标记。多模式以探索协调的语言推理和纳班辛信息。