0 views

GPT-4o多模态能力再升级,实时语音交互成焦点

本周人工智能领域最受关注的事件来自OpenAI。该公司于周一悄然更新了GPT-4o模型,重点强化了实时语音对话功能。新版模型在延迟控制上取得了显著突破,用户与AI的对话响应时间缩短至300毫秒以内,几乎接近真人对话节奏。更重要的是,模型现在能够识别并回应用户的语调、语速甚至叹息、笑声等人声情感信号。在实际测试中,当用户故意放慢语速并表现出犹豫时,AI会主动切换为更温和、更具鼓励性的语气。这一升级被业界视为人机交互从“文字指令”迈向“自然对话”的关键一步。不过,OpenAI并未公布技术细节,有分析人士指出其可能采用了端到端的多模态流式处理架构,而非传统级联系统。

Anthropic发布Claude 3.5 Opus,代码与数学能力超越GPT-4

Anthropic在本周中段突然发布了Claude 3.5 Opus模型,一改此前谨慎的发布节奏。根据该公司公布的基准测试结果,Opus在HumanEval代码生成任务中达到93.7%的通过率,在MATH数学竞赛数据集上得分95.2%,双双超越GPT-4同期的表现。更值得注意的是,Claude 3.5 Opus在长文本理解方面引入了“分层注意力”机制,能够处理长达20万token的上下文而不会丢失关键信息。实测中,将一份完整的《大宪章》英文原版(约3.5万词)与当代法律解释文档一同输入,模型能准确指出现代解释中与原文条款的矛盾之处。Anthropic强调,该模型的安全训练方式也有所更新,通过“宪法式AI”的迭代,对“危险代码生成”“偏见诱导”等类别的拒绝率提升了17%。

谷歌DeepMind推出AI天气预报系统“GenCast”,准确率超越传统数值模型

在应用层面,谷歌DeepMind团队在《自然》杂志上发表论文,介绍了其新一代全球天气预报AI模型GenCast。与以往依赖物理方程模拟的数值天气预报不同,GenCast采用扩散概率模型,直接对全球大气状态进行概率预测。在实验中,GenCast在15天预报的时间跨度上,对温度、降水、风速等关键指标预测的均方根误差(RMSE)比欧洲中期天气预报中心(ECMWF)的ENS高分辨率集合预报系统低约12%。尤其是在预测极端天气事件(如台风路径、热浪范围)时,GenCast的提前预警时间比传统方法平均提前了2.3天。虽然GenCast目前仍需要大量历史再分析数据进行训练,但其推理速度极快——单次15天全球预报只需约8分钟,而传统超级计算机需要数小时。这一成果标志着AI在科学计算领域正从“辅助工具”向“核心引擎”转变。

国内大模型赛道迎来价格战,千亿参数模型调用成本下降90%

国内AI行业本周出现戏剧性的一幕。百度智能云宣布其文心大模型ERNIE 4.0 Turbo的API调用价格调整为每千token 0.03元,同日阿里云通义千问Qwen2.5-72B的价格也降至0.02元/千token。更激进的是,字节跳动旗下火山引擎直接将豆包大模型(Pro版)的推理价格定为0.0008元/千token,仅为市场均价的十分之一。这轮降价直接导致多家中小型AI创业公司陷入困境——它们此前以“模型微调+推理服务”为核心业务,如今大厂以接近成本价甚至亏本价出售算力,迫使这些公司要么转型垂直场景,要么加速自研更小规模的专用模型。有行业分析师指出,此次价格战本质上是头部企业在争夺AI应用生态的底层入口:通过降低API价格,吸引更多开发者绑定自家平台,进而通过增值服务(如数据标注、模型蒸馏、行业模板)盈利。

欧盟通过《AI责任指令》修正案,引入“算法透明度”强制要求

政策法规方面,欧盟议会以523票赞成、78票反对的结果通过了《AI责任指令》的修正案。新规的核心变化在于:对于被分类为“高风险”的AI系统(如医疗诊断、信贷审批、招聘筛选等),开发者必须提供可理解的技术文档,说明模型决策背后的关键影响因素。更重要的是,修正案引入了“举证责任倒置”原则——若用户因AI系统决策遭受损害,开发者需证明其系统不存在导致该损害的缺陷,而不再由用户承担举证责任。该指令还要求所有部署在欧洲市场的AI系统,其训练数据中涉及欧盟公民个人数据部分的来源必须可追溯。多家美国科技巨头对此表达了担忧,认为这将显著增加合规成本,并可能导致部分AI服务暂缓在欧洲上线。欧盟委员会则回应称,这旨在建立“负责任的创新”环境。

Meta开源Llama 3.1 405B权重,社区涌现大量微调变体

开源社区本周迎来重磅消息:Meta正式在Hugging Face上开源了Llama 3.1 405B模型的完整权重和训练日志。相比此前只开放研究下载的版本,这次开源的模型包含了完整的checkpoint文件,允许开发者在任何硬件上进行二次微调。短短72小时内,社区已经涌现出超过200个基于该模型的微调版本,覆盖代码补全、法律咨询、医疗问答等细分领域。其中较受关注的是一个名为“CodeLlama-405B-Instruct”的版本,其通过额外的高质量指令数据微调,在GitHub Copilot同类型benchmark上达到了86.7%的代码完成率。Meta AI首席科学家Yann LeCun在社交平台上表示,开放完整权重是为了“让研究与应用的边界消失”,但同时也警告,因模型规模过大,建议团队至少拥有4张A100-80G显卡才考虑进行微调。

AI初创公司Runway推出视频生成模型Gen-3 Alpha,支持实时光线追踪

在生成式AI视频领域,Runway宣布其Gen-3 Alpha模型正式进入Beta公测阶段。该模型最大的亮点是支持“实时光线追踪”效果的生成——当用户输入“日落时分,金属雕像反射金色光芒”这类提示时,模型能够生成带有环境光反射、阴影软硬变化和全局光照效果的视频片段。不过,目前生成的视频最长仅为8秒(每秒24帧),且分辨率限制在1280x720。Runway同时推出了一个名为“Director Mode”的新功能,允许用户在生成过程中通过拖拽关键帧来指定特定物体的运动轨迹,例如让一辆汽车从画面左方驶向右方,同时摄像机缓慢向左平移。这一功能被看作是AI视频创作从“抽卡式生成”向“可控式创作”的过渡。目前Gen-3 Alpha仅支持英语提示,中文支持将在下一个版本中加入。

本周技术焦点:MoE架构在端侧模型上的突破

最后,本周技术社区讨论最热烈的话题是“MoE(混合专家模型)在小模型上的成功部署”。微软研究院与清华大学合作发布了一篇论文,展示了如何在只有2B参数的模型中应用稀疏MoE架构,使其在某些NLP任务上达到13B参数密集模型的效果。他们的核心创新在于“动态专家路由器”——它不再像传统MoE那样在每个token上固定激活固定的专家数量,而是根据输入语义的复杂度动态决定需要多少专家参与计算。例如,处理“苹果是水果”这样的简单陈述句时,模型只需激活2个专家;而处理“根据牛顿运动定律和开普勒第三定律,推导行星轨道的形状”时,则会激活5个专家。这种设计在保持低算力开销的同时大幅提升能力。有评论认为,这为AI大模型在手机、AR眼镜等端侧设备上的广泛应用打开了可能性。