- AI资讯

AI资讯2026-05-13 09:020 views

从“Scaling Law”到“推理时扩展”：大模型前沿的新范式

过去两年，大语言模型的发展几乎完全遵循“Scaling Law”（规模定律）——参数越多、数据越大、算力越强，模型能力就随之提升。GPT-4、Claude 3、Llama 3等模型通过堆叠数千亿参数和万亿token数据，在自然语言理解和生成上取得了惊人成绩。然而，进入2024年下半年，行业逐渐意识到纯粹的规模化已经遇到边际收益递减：训练成本飙升，但能力增长趋缓，尤其是在复杂推理、数学证明、多步逻辑等需要“慢思考”的任务上，传统next-token-prediction范式显得力不从心。这促使研究者将关注点从“训练时计算量”转向“推理时计算量”——即让模型在回答问题时不只生成一次，而是通过反复思考、验证、搜索来消耗更多推理计算资源，从而显著提升复杂任务的准确率。

关键突破：引入“推理时计算扩展”

所谓“推理时计算扩展”（Test-Time Compute Scaling），最早由OpenAI在2024年9月发布的o1模型（内部代号“草莓”）中正式推向公众视野。o1模型的创新在于，它在生成最终答案之前会主动“思考”——通过隐式的思维链（Chain-of-Thought）进行多轮自我反思、假设检验和错误纠正。虽然OpenAI并未公开完整技术细节，但后续研究论文和后续产品（如o3、o4-mini）揭示了其核心机制：在推理阶段动态分配更多计算资源（如增加token生成数、多次采样、蒙特卡洛树搜索等），让模型针对复杂问题执行“内部验证循环”。

这一思路迅速引起共鸣。2025年初，DeepSeek推出了开源推理模型DeepSeek-R1，并在其技术报告中详细披露了如何通过强化学习（RL）和“冷启动”数据训练，使模型学会在长程推理中主动使用<思考>标记来组织过程。DeepSeek-R1在数学竞赛（AIME 2025）、编程竞赛（Codeforces）和科学推理（GPQA-Diamond）等基准上，不仅超越了GPT-4o，更在某些任务上逼近了更昂贵的闭源模型。

Google DeepMind也紧随其后，在Gemini 2.0系列中内置了“深度搜索”（Deep Search）模式，让模型在回答前自动检索内部知识并执行多步验证。Meta则通过研究论文展示了纯稀疏架构下推理时扩展的可行性。可以说，“推理时计算扩展”已经成为2025年大模型领域最明确的技术主线。

典型案例：o3与DeepSeek-R1的技术对比

OpenAI的o3模型（2025年2月发布）进一步将推理时扩展做到极致。据官方披露，o3在优化模式下可以使用“高计算”（high compute）调度，在AIME 2025上达到96.7%的正确率，而GPT-4o仅为42%。其代价是单次推理的计算成本比普通模式高出数百倍。但o3也提供了“低计算”模式供日常使用，展示了推理时扩展的灵活性——用户可以根据任务难度动态调整模型的“思考深度”。

相比之下，DeepSeek-R1的亮点在于开源和高效。DeepSeek团队采用了两阶段训练：先用数千条长思维链数据对基础模型进行微调（冷启动），再通过GRPO（Group Relative Policy Optimization）强化学习让模型自主学会内部验证。R1的报告显示，其在不同规模的模型（从7B到671B）上均实现了推理能力的显著跃升，且MoE（混合专家）架构使其推理时扩展的计算开销控制在合理范围。更重要的是，开源社区可以复现和进一步改进，促进了整个生态的快速迭代。

这两者的共同趋势是：模型不再是一次性生成答案，而是将推理视为一个可调节计算资源的“过程”。这彻底改变了大模型的使用方式——从“快思考”转向“慢思考”，从“输出长度固定”转向“按需计算”。

技术核心：思维链、自验证与搜索树

实现推理时扩展需要三个关键技术组件。首先是显式的或隐式的思维链（Chain-of-Thought，CoT）。传统CoT只是让模型在回答前一步步写推理过程，而新范式要求模型有能力对推理步骤进行自我回溯和修正。例如，DeepSeek-R1在长思维链中会主动插入<检查>标记，并针对某一步进行重新计算。其次，自验证（Self-Verification）机制使模型能够评判自身输出的正确性。研究者通过训练一个独立的验证器，或者让模型同时扮演“解题者”和“判卷者”，在多次采样中选出最一致的答案。第三，搜索树（如蒙特卡洛树搜索MCTS）被用于探索不同推理路径。Google在Gemini 2.0中使用了“树搜索”扩展，让模型在数学证明题中尝试多条分支，然后根据验证分数回收最佳路径。这些技术叠加在一起，使得大模型在复杂的逻辑任务上获得了前所未有的可靠性。

值得注意的是，推理时扩展并不依赖更大的模型或更多训练数据，而是通过智能地消耗推理计算资源来换取准确率。这一发现极大地缓解了Scaling Law失效的压力——与其追求下一代千亿参数模型，不如优化现有模型的推理算法。因此，许多中小型团队也开始在7B、13B参数模型上应用推理时扩展技术，取得了令人瞩目的效果。

挑战与展望：成本、公平性与安全

尽管前景光明，推理时扩展并非没有代价。首先是计算成本问题：高强度的推理模式可能导致能耗暴增。o3的“高计算”模式单次推理费用可达数十美元，这在大规模服务中难以普及。如何平衡“思考深度”与“服务成本”，是行业必须解决的工程难题。DeepSeek-R1通过MoE稀疏架构和自适应token预算做了尝试，但距离理想状态仍有距离。

其次是公平性与可解释性。当模型花5分钟“思考”一道题时，其内部过程是否真的像人类一样逻辑严密，还是仅仅在模仿表面模式？深度思考的“黑箱”可能让错误更难被追踪。此外，推理时扩展也加剧了“计算鸿沟”——只有拥有大量算力的机构才能享受最强模型，这偏离了AI民主化的初衷。

安全方面，具备强大推理能力的模型也可能被用于设计恶意软件、制定复杂诈骗话术甚至制造生物武器。OpenAI和DeepSeek都报告了在推理模型上需要更谨慎的“对齐”工作。例如，DeepSeek-R1在训练中加入了安全RL约束，让模型在思考过程中主动规避有害意图。未来，对推理过程的监管和审计可能会成为AI治理的新课题。

结语：大模型“第二曲线”已经开启

从纯粹的规模化到推理时扩展，大模型的发展正在经历一次深刻的范式转移。我们不再仅仅追求“更大、更快”，而是开始追求“更聪明、更深思”。无论是OpenAI的o系列、DeepSeek的R系列，还是Google的Gemini深度搜索，都表明这一方向拥有巨大潜力。可以预见，2025年下半年将涌现更多关于推理时扩展的技术创新，包括更高效的搜索算法、更轻量的验证器以及自动化的推理预算管理。大模型的前沿，正从“力大砖飞”走向“智巧结合”。

从“Scaling Law”到“推理时扩展”：大模型前沿的新范式

关键突破：引入“推理时计算扩展”

典型案例：o3与DeepSeek-R1的技术对比

技术核心：思维链、自验证与搜索树

挑战与展望：成本、公平性与安全

结语：大模型“第二曲线”已经开启

Related

边缘AI：实时决策零延迟

法律AI咨询：指尖上的私人律师

AI

AI算力激战：巨头争夺下一城