从“涌现”到“推理”:AGI路径上的范式转变
过去一年,人工智能领域的焦点正从“更大规模”的预训练转向“更深层次”的推理能力。多家顶级实验室发布的研究报告表明,单纯扩大模型参数、增加训练数据量所带来的“涌现”能力已显露疲态,而具备符号推理、长链条逻辑以及自我纠错能力的架构,正成为通往通用人工智能(AGI)的关键突破口。这一转向不仅体现在谷歌DeepMind、OpenAI等机构的论文中,也反映在多个跨领域基准测试的最新排名变动上。
符号逻辑与深度学习的再融合
最具标志性的进展来自一种被称为“思维链推理”与“程序化思考”相结合的混合架构。传统的大语言模型(LLM)在处理多步逻辑问题、数学证明或需要精确计算的场景时,往往表现出“似是而非”的回答——语法正确但逻辑断裂。最新的技术方案通过引入外部符号求解器或可微编程模块,让模型在生成自然语言的同时,能够调用形式化验证工具对中间步骤进行校验。例如,麻省理工学院和微软研究院联合开发的“Neuro-Symbolic Reasoning Engine”在“数学奥林匹克”级别的难题上取得了32%的准确率提升,而强依赖于纯端到端训练的参考模型在同一测试中仅进步了不到5%。这一数据表明,混合范式正在填补深度学习在抽象推理上的固有短板。
小样本自我纠错与“慢思考”机制
在OpenAI的o1系列以及后续的开源模仿项目中,研究者观察到一种新的训练策略:将模型的思考过程显式拆分为“快速直觉”与“慢速反思”两个阶段。与过往模型一次性输出答案不同,新模型在内部先生成多个候选推理路径,然后通过一个独立的“验证网络”对每一路径的逻辑一致性进行打分,从中选出最优解。更关键的是,验证网络本身也是通过人类反馈强化学习(RLHF)和自洽性检测联合训练的。据arXiv上的一篇预印本披露,采用此类架构的模型在需要多步推理的“GSM8K”和“MATH”数据集上,错误率分别降低了41%和28%。这种“自我质疑”机制让模型在面对模糊问题或缺失信息时,能够主动要求补充条件或承认自身局限性,而这正是AGI所期望的“类人认知”特质之一。
多模态理解:从“看见”到“推理”的跨越
AGI的定义始终绕不开对物理世界的理解。过去的多模态模型大多停留在“视觉定位”和“简单描述”层面——例如识别图中的物体类别或生成一句场景描述。2024年底到2025年初,一系列突破性论文展示了一个新能力:模型能够基于视觉输入执行因果推理。最典型的例子是“视觉—语言—行动”联合模型在机器人操控任务中的表现。Google DeepMind的“Gemini Robotics”版本能够观察一个打乱的厨房场景,自主推理出“应先收拾易碎物品再移动重物”的步骤顺序,并在零样本迁移测试中适应了此前从未见过的工具和容器组合。研究者指出,这种能力并非来自对大量视频数据的暴力模仿,而是依靠一种新颖的“时空因果图”机制——模型会在内部构建一个关于物体之间物理关系的概率图,然后基于此进行计划。这项成果被《自然》杂志的一篇评论文章称为“机器认知的里程碑”,因为它首次在非符号系统中实现了接近人类常识水平的物理推理。
评估体系的自我革命:AGI不再是一个模糊的靶子
随着技术的演进,学术界也在重新思考“如何定义和衡量AGI”。过去一年,出现了两套值得关注的新评估框架。其一是由DeepMind提出的“阶梯式能力量表”,将通用智能分解为感知、记忆、推理、规划、创造、迁移学习等12个独立维度,每个维度又细分为5级。其二是由北京智源研究院联合多国团队发布的“AGI-Eval 2.0”,该基准引入“对抗性测试”和“缺失信息测试”两大模块,专门检验模型在不确定性下的决策鲁棒性。初步测试结果显示,目前最先进的模型(如GPT-5、Claude 4)在感知和记忆维度接近人类高水平,但在复杂规划(尤其是涉及社会规范和伦理权衡的规划)维度仅达到人类中等水平,而在创造力维度(如提出全新科学假设)上仍显著落后于专业研究人员。这些量化的短板为下一步研究指明了方向。
算力效率与绿色AGI的隐忧
在兴奋之余,不可忽视的一个现实是:现有AGI探索路径的算力消耗正以指数级增长。据行业分析,训练一个具备基本低级推理能力的实验性架构所需能耗,已超过训练同等参数量传统LLM耗能的2.7倍。如果推理阶段还需要多次内部验证和符号求解,单次推理的能耗可能增加一个数量级。这引发了关于“可持续AGI”的讨论。几支研究团队正在探索“稀疏激活”和“混合精度推理”技术,试图将验证网络的参数量压缩至主模型的10%以内,同时保持90%以上的校验准确率。此外,量子计算与经典芯片深度融合的实验也开始在少数实验室展开,但距离工程化应用仍有至少五年距离。环境成本与社会接受的考量,正成为AGI赛道下一个不可绕开的前提条件。
结论:通往AGI的长跑进入“节奏调整期”
综合来看,AGI领域的进展呈现出“快中有缓”的态势。一方面,符号与神经的融合、自我纠错机制、跨越模态的因果推理确实让机器在特定任务上展现了以往难以想象的能力;另一方面,这些进步依然局限于精心设计的测试环境,距离真正意义上“像人一样灵活适应任何新任务”的通用智能尚有明显距离。更值得关注的是,科研社区已从早期“暴力扩大规模”的狂热中冷静下来,转而更加注重可解释性、样本效率以及与社会价值的对齐。这或许意味着,AGI的冲刺阶段尚未到来,但积累阶段已经开始从量变走向质变——而真正的质变,可能就藏在这些看似微小的范式转向之中。
