0 views

从“Scaling Law”到“推理时扩展”:大模型前沿的新范式

过去两年,大语言模型的发展几乎完全遵循“Scaling Law”(规模定律)——参数越多、数据越大、算力越强,模型能力就随之提升。GPT-4、Claude 3、Llama 3等模型通过堆叠数千亿参数和万亿token数据,在自然语言理解和生成上取得了惊人成绩。然而,进入2024年下半年,行业逐渐意识到纯粹的规模化已经遇到边际收益递减:训练成本飙升,但能力增长趋缓,尤其是在复杂推理、数学证明、多步逻辑等需要“慢思考”的任务上,传统next-token-prediction范式显得力不从心。这促使研究者将关注点从“训练时计算量”转向“推理时计算量”——即让模型在回答问题时不只生成一次,而是通过反复思考、验证、搜索来消耗更多推理计算资源,从而显著提升复杂任务的准确率。

关键突破:引入“推理时计算扩展”

所谓“推理时计算扩展”(Test-Time Compute Scaling),最早由OpenAI在2024年9月发布的o1模型(内部代号“草莓”)中正式推向公众视野。o1模型的创新在于,它在生成最终答案之前会主动“思考”——通过隐式的思维链(Chain-of-Thought)进行多轮自我反思、假设检验和错误纠正。虽然OpenAI并未公开完整技术细节,但后续研究论文和后续产品(如o3、o4-mini)揭示了其核心机制:在推理阶段动态分配更多计算资源(如增加token生成数、多次采样、蒙特卡洛树搜索等),让模型针对复杂问题执行“内部验证循环”。

这一思路迅速引起共鸣。2025年初,DeepSeek推出了开源推理模型DeepSeek-R1,并在其技术报告中详细披露了如何通过强化学习(RL)和“冷启动”数据训练,使模型学会在长程推理中主动使用<思考>标记来组织过程。DeepSeek-R1在数学竞赛(AIME 2025)、编程竞赛(Codeforces)和科学推理(GPQA-Diamond)等基准上,不仅超越了GPT-4o,更在某些任务上逼近了更昂贵的闭源模型。

Google DeepMind也紧随其后,在Gemini 2.0系列中内置了“深度搜索”(Deep Search)模式,让模型在回答前自动检索内部知识并执行多步验证。Meta则通过研究论文展示了纯稀疏架构下推理时扩展的可行性。可以说,“推理时计算扩展”已经成为2025年大模型领域最明确的技术主线。

典型案例:o3与DeepSeek-R1的技术对比

OpenAI的o3模型(2025年2月发布)进一步将推理时扩展做到极致。据官方披露,o3在优化模式下可以使用“高计算”(high compute)调度,在AIME 2025上达到96.7%的正确率,而GPT-4o仅为42%。其代价是单次推理的计算成本比普通模式高出数百倍。但o3也提供了“低计算”模式供日常使用,展示了推理时扩展的灵活性——用户可以根据任务难度动态调整模型的“思考深度”。

相比之下,DeepSeek-R1的亮点在于开源和高效。DeepSeek团队采用了两阶段训练:先用数千条长思维链数据对基础模型进行微调(冷启动),再通过GRPO(Group Relative Policy Optimization)强化学习让模型自主学会内部验证。R1的报告显示,其在不同规模的模型(从7B到671B)上均实现了推理能力的显著跃升,且MoE(混合专家)架构使其推理时扩展的计算开销控制在合理范围。更重要的是,开源社区可以复现和进一步改进,促进了整个生态的快速迭代。

这两者的共同趋势是:模型不再是一次性生成答案,而是将推理视为一个可调节计算资源的“过程”。这彻底改变了大模型的使用方式——从“快思考”转向“慢思考”,从“输出长度固定”转向“按需计算”。

技术核心:思维链、自验证与搜索树

实现推理时扩展需要三个关键技术组件。首先是显式的或隐式的思维链(Chain-of-Thought,CoT)。传统CoT只是让模型在回答前一步步写推理过程,而新范式要求模型有能力对推理步骤进行自我回溯和修正。例如,DeepSeek-R1在长思维链中会主动插入<检查>标记,并针对某一步进行重新计算。其次,自验证(Self-Verification)机制使模型能够评判自身输出的正确性。研究者通过训练一个独立的验证器,或者让模型同时扮演“解题者”和“判卷者”,在多次采样中选出最一致的答案。第三,搜索树(如蒙特卡洛树搜索MCTS)被用于探索不同推理路径。Google在Gemini 2.0中使用了“树搜索”扩展,让模型在数学证明题中尝试多条分支,然后根据验证分数回收最佳路径。这些技术叠加在一起,使得大模型在复杂的逻辑任务上获得了前所未有的可靠性。

值得注意的是,推理时扩展并不依赖更大的模型或更多训练数据,而是通过智能地消耗推理计算资源来换取准确率。这一发现极大地缓解了Scaling Law失效的压力——与其追求下一代千亿参数模型,不如优化现有模型的推理算法。因此,许多中小型团队也开始在7B、13B参数模型上应用推理时扩展技术,取得了令人瞩目的效果。

挑战与展望:成本、公平性与安全

尽管前景光明,推理时扩展并非没有代价。首先是计算成本问题:高强度的推理模式可能导致能耗暴增。o3的“高计算”模式单次推理费用可达数十美元,这在大规模服务中难以普及。如何平衡“思考深度”与“服务成本”,是行业必须解决的工程难题。DeepSeek-R1通过MoE稀疏架构和自适应token预算做了尝试,但距离理想状态仍有距离。

其次是公平性与可解释性。当模型花5分钟“思考”一道题时,其内部过程是否真的像人类一样逻辑严密,还是仅仅在模仿表面模式?深度思考的“黑箱”可能让错误更难被追踪。此外,推理时扩展也加剧了“计算鸿沟”——只有拥有大量算力的机构才能享受最强模型,这偏离了AI民主化的初衷。

安全方面,具备强大推理能力的模型也可能被用于设计恶意软件、制定复杂诈骗话术甚至制造生物武器。OpenAI和DeepSeek都报告了在推理模型上需要更谨慎的“对齐”工作。例如,DeepSeek-R1在训练中加入了安全RL约束,让模型在思考过程中主动规避有害意图。未来,对推理过程的监管和审计可能会成为AI治理的新课题。

结语:大模型“第二曲线”已经开启

从纯粹的规模化到推理时扩展,大模型的发展正在经历一次深刻的范式转移。我们不再仅仅追求“更大、更快”,而是开始追求“更聪明、更深思”。无论是OpenAI的o系列、DeepSeek的R系列,还是Google的Gemini深度搜索,都表明这一方向拥有巨大潜力。可以预见,2025年下半年将涌现更多关于推理时扩展的技术创新,包括更高效的搜索算法、更轻量的验证器以及自动化的推理预算管理。大模型的前沿,正从“力大砖飞”走向“智巧结合”。