大模型能力再上台阶:多模态与推理增强
过去一个月,多家头部AI实验室相继发布或预告了新一代大语言模型,标志着基础模型在理解、生成与推理能力上取得关键突破。OpenAI的GPT-4o系列更新了更高效的多模态融合技术,能够在一次前向传播中同时处理文本、图像与音频,并大幅降低延迟;Google DeepMind推出的Gemini 1.5 Pro在长上下文窗口(支持多达200万个token)中表现出非凡的记忆与检索能力,可实现对整本教材或数小时的视频内容进行精准问答。与此同时,Anthropic的Claude 3.5 Sonnet在复杂推理任务上进一步缩小了与顶级模型的差距,其“宪法式”微调机制在减少有害输出方面展现出更好的可控性。业界普遍认为,多模态与长上下文的结合正在推动AI从“工具”向“通用感知系统”演进,而这将直接赋能教育、医疗和法律等需要全文理解的行业。
AI Agent进入实用期:从对话到自主行动
大模型能力的提升催生了AI Agent(智能体)概念的快速落地。微软Copilot增加了“行动”模式,允许用户通过自然语言指令让AI自动操作Excel表格、发送邮件或管理日程;国内创业公司智谱AI发布了AutoGLM,一个能在手机端模拟用户操作的Agent,可以自动完成点外卖、查航班、发微信等跨应用任务。值得注意的是,苹果也在近期披露了基于大模型的端侧Agent框架,计划将其集成到iOS 18中,让Siri能够理解上下文并主动执行多步操作。安全与可靠性依然是Agent推广的核心挑战——当前Agent在复杂环境中的失败率仍接近20%,但多家机构通过“规划-验证-反馈”的闭环训练,已将该比例降至10%以下。可以预见,未来半年AI Agent将从演示阶段进入日常办公与个人助理的实战场景。
端侧AI加速落地:芯片与模型协同进化
随着高通骁龙8 Gen 4、联发科天玑9400以及苹果A18芯片的发布,端侧AI算力再次迎来跃升。新款旗舰芯片普遍内置了独立的NPU,支持在手机上运行70亿参数左右的语言模型,且推理速度可控制在每秒30 token以上,基本满足了日常对话与文档摘要需求。Meta发布的Llama 3.2系列中特别推出了4B和8B的端侧优化版本,可以在不联网的情况下完成复杂的语义理解任务。此外,阿里通义千问也推出了Qwen2.5-Coder边缘端模型,专为代码补全和本地IDE集成设计。业界分析指出,端侧AI与云端的混合推理模式将成为新常态:隐私敏感型任务在本地完成,高算力需求任务则调用云端大模型。这一趋势正在重塑智能手机、AI PC以及IoT设备的商业模式,也为操作系统和开发者生态带来新的机遇。
全球监管与伦理新动向:欧盟AI法案进入执行期
在政策层面,欧盟《人工智能法案》于8月正式进入执行期第一阶段,要求所有在欧盟市场投放的高风险AI系统进行合规登记。受此影响,Meta一度暂停了在欧洲利用用户数据训练模型的项目,Google和微软则调整了部分产品的数据处理流程。与此同时,美国白宫发布了新的“AI安全与信任”行政命令执行进展报告,强调联邦机构需在90天内完成对生成式AI内容的水印标准制定。值得关注的是,中国国家网信办发布《生成式人工智能服务管理办法(草案修订稿)》,新增了对AI生成内容“透明度”的强制要求,包括必须在明显位置标注“AI生成”字样。这些监管措施虽然在短期内可能增加企业合规成本,但长期来看有助于建立用户信任,为AI技术的健康发展划定清晰边界。
资本热捧基础模型,应用层细分赛道受关注
投融资方面,2025年第三季度全球AI领域总投资额达到约520亿美元,其中基础模型公司仍占据半壁江山。OpenAI完成新一轮66亿美元融资,估值突破3000亿美元;法国Mistral AI获得4.8亿欧元资金,专注于开源模型的商业落地。与此同时,应用层的投资热度正在向垂直行业转移:医疗AI公司Abridge拿下3.5亿美元C轮,用于临床记录自动化;法律科技公司Harvey获得1.2亿美元,其平台已能分析数百页的合同并生成合规建议。投资者普遍认为,基础模型已进入“强者恒强”的洗牌期,而应用层则需要抓住具体场景的“刚需痛点”。此外,AI基础设施(如算力集群调度、数据标注平台、模型评测基准)也成为资本的布局重点,因为无论模型还是应用层的发展,都离不开更高效、更可靠的底层支撑。
