这周AI圈最魔幻的事:OpenAI发了GPT-5.4,…
这周AI圈最魔幻的事:OpenAI发了GPT-5.4,但最大的震动来自阿里
📅 2026-03-06|约5500字|阅读约14分钟
这周大模型圈像是被人扔了两颗手雷。
一颗是明面上的:OpenAI 在3月5日发布了 GPT-5.4,性能碾压 GPT-5.2,Google 也连发 Gemini 3.1 Pro 和 Flash-Lite,两家都在抢”最强模型”的名号。
另一颗是悄悄引爆的:阿里巴巴的 Qwen 团队核心成员集体请辞——就在他们刚刚发布了被业界认为”惊艳”的 Qwen 3.5 系列后不久。
这两件事放在一起,折射出当下 AI 产业的一个深层矛盾:技术的外壳越来越亮,但内部在悄悄地、大规模地重组。
一、本周大模型动态一览
| 事件 | 来源 | 亮点 | 评分 |
|---|---|---|---|
| GPT-5.4 发布 | OpenAI | 合并 Codex 能力,原生计算机操作,专业工作能力+83% | ⭐⭐⭐ |
| Gemini 3.1 Pro 登顶 AI 综合榜 | Google DeepMind | 同价 Gemini 3 Pro,却在 10 大 benchmark 中领跑 6 项 | ⭐⭐⭐ |
| Gemini 3.1 Flash-Lite 上线 | $0.25/M token,比 2.5 Flash 快 2.5 倍 | ⭐⭐ | |
| Qwen 团队核心成员集体离职 | 36Kr / Simon Willison | 领头人林俊扬离职,多名骨干同日出走 | ⭐⭐⭐ |
| Claude Opus 4.6 解开 Knuth 数学难题 | Donald Knuth 亲撰声明 | 计算机科学之父为 AI 能力背书,具里程碑意义 | ⭐⭐⭐ |
| Anthropic vs 美国国防部 | Anthropic 官方 | Dario 公开声明拒绝”供应链风险”指定,宣布法律挑战 | ⭐⭐ |
二、重点拆解
🔥 GPT-5.4:OpenAI 正在打造一个”万能职业助手”
来源:OpenAI 官方博客,2026-03-05
这次发布最核心的一个数字:**83.0%**。
这是 GPT-5.4 在 GDPval 基准上的成绩——这个基准测的不是数学或编程竞赛题,而是横跨44个职业的真实工作任务:销售演示、财务建模、医疗排班、制造图纸……相当于 AI 圈的”高考综合科”。GPT-5.2 是70.9%,这次直接跳到 83.0%,差距相当大。
具体升级了什么?
① 合并了 GPT-5.3-Codex 的编程能力
一直以来 OpenAI 的编程专用模型和通用模型是两条产品线。GPT-5.4 第一次把两者融合——在编程 SWE-Bench Pro 上超过了 Codex 专用版,同时在通用任务上也没有退步。这意味着”分开维护专用编程模型”的时代,可能要结束了。
② 原生计算机操作能力(Computer Use)
GPT-5.4 是 OpenAI 第一款”通用目的”的计算机操作模型。在 OSWorld-Verified 基准上得了75%,而 GPT-5.2 只有 47.3%。更重要的是,它现在是 API 可用的——开发者可以让 GPT-5.4 直接操控浏览器、桌面应用,不需要额外集成。
③ 办公软件能力大跳跃
OpenAI 罕见地主动对标”初级投行分析师”的工作:在内部电子表格建模基准上,GPT-5.4 得了 87.3%,GPT-5.2 只有 68.4%。有意思的是,这与 Anthropic Claude 的策略方向形成了有趣的呼应——两家都开始把”职场生产力”当成核心卖点。
定价:GPT-5.4 价格略高于 GPT-5.2,但 token 效率提升(推理所需 token 更少),实际使用成本未必更高。
我的判断:GPT-5.4 代表的是 OpenAI 的一个战略转向——从”更聪明”转向”更实用”。未来的大模型竞争,可能不再只比 MATH、GPQA,而是比谁能真的替代白领工作。
🚀 Gemini 3.1 系列:Google 的”价格屠夫”策略
来源:Google DeepMind Blog,2026年2月-3月
本周 Google 同时推进了两款 Gemini 3.1 产品:
Gemini 3.1 Pro:同价的情况下,在 Artificial Analysis Intelligence Index 综合评分榜上超过了 Claude Opus 4.6(57分 vs 53分)和 GPT-5.2(51分),还在 ARC-AGI-2、GPQA Diamond、Humanity’s Last Exam、BrowseComp 等多个业界关注的顶级基准上达到 SOTA。
值得注意的是,它是以 Gemini 3 Pro 的价格发布的——本质上是免费升级,这让竞争对手很难受。
Gemini 3.1 Flash-Lite:$0.25/百万输入 token,$1.50/百万输出 token。比上一代 2.5 Flash 快 2.5 倍,输出速度提升 45%。同时支持四档”思考强度”可调,开发者可以根据任务复杂度动态平衡成本和质量。
这两款产品合起来,构成了 Google 清晰的”价格-性能双杀”策略:
- 旗舰端:Gemini 3.1 Pro 用更低价格打进顶级性能段
- 廉价端:Flash-Lite 以 $0.25 的极低价格覆盖高频调用场景
有意思的一个细节:Gemini 3.1 Flash-Lite 同样有推理能力(thinking levels),而且默认开放——这在主流廉价模型里是稀缺的。
Google 的节奏越来越有进攻性了。
😱 Qwen 团队集体出走:中国开源 AI 的最大变局
来源:Simon Willison’s Blog / 36Kr,2026-03-04
这是本周最令人唏嘘的一条消息。
3月4日北京时间凌晨0:11,阿里巴巴 Qwen(通义)大模型技术负责人林俊扬(Junyang Lin)在 X 上发文:**”me stepping down. bye my beloved qwen.”**
林俊扬不是普通员工。他是阿里最年轻的 P10,主导了 Qwen 系列从 2024 年开始的开源模型策略,被认为是 Qwen 能跻身全球顶级开源模型的核心推手之一。
随后,多名骨干同日宣布离职:
- 惠彬元(Binyuan Hui):Qwen 代码开发负责人,Qwen-Coder 系列主导者
- 于博文(Bowen Yu):Qwen 后训练研究负责人
- 李凯鑫(Kaixin Li):Qwen 3.5/VL/Coder 核心贡献者(新加坡国立大学博士)
更多年轻研究员也在同一天离职。
据36Kr报道,阿里 CEO 吴咏明当日紧急召开 All Hands 全员会议,但没有就林俊扬去向给出明确答案。林俊扬本人随后发朋友圈:”Qwen 的兄弟们,按原计划继续,没问题。”——语气模糊,既没否认离职,也没确认回归。
这件事之所以令人震惊,有一个非常重要的背景:Qwen 3.5 系列刚刚于2月中旬发布,并被普遍认为是目前最好的开源模型家族之一。
Simon Willison 的原话:”这是一个真正令人印象深刻的模型家族。397B-A17B 旗舰,再加上 122B、35B、27B、9B、4B、2B、0.8B 的完整小模型阵列,其中 2B 只有 4.57GB,却是全推理、多模态的。”
如果核心团队就此散去,Qwen 3.5 可能真的成为绝唱。
背后原因:据悉触发点是阿里内部重组,一名从 Google Gemini 团队挖来的研究员被委任统管 Qwen,这让原团队难以接受。
这件事提醒了一个残酷事实:在 AI 领域,核心人才 = 核心竞争力。模型可以开源,但能训练出这个模型的人,才是真正的壁垒。
🧠 Donald Knuth 为 Claude 站台:AI 解开了他研究数周的数学难题
来源:Donald Knuth 亲撰 PDF 声明,Simon Willison’s Blog,2026-03-03
这条消息不是发布会,没有 PR 稿,没有 benchmark——只是一位老人发了一篇 PDF。
但发这篇 PDF 的人,是 Donald Knuth——《计算机程序设计艺术》作者,图灵奖得主,被誉为计算机科学之父。他一向以对 AI 持怀疑态度著称。
原文引用:
“Shock! Shock! I learned yesterday that an open problem I’d been working on for several weeks had just been solved by Claude Opus 4.6 — Anthropic’s hybrid reasoning model that had been released three weeks earlier! It seems that I’ll have to revise my opinions about ‘generative AI’ one of these days. What a joy it is to learn not only that my conjecture has a nice solution but also to celebrate this dramatic advance in automatic deduction and creative problem solving.”
翻译:震惊!我研究了数周的一个开放问题,昨天被 Claude Opus 4.6 解决了。看来有一天我得重新评估我对”生成式 AI”的看法了。
这段话的分量,远超任何一篇技术论文。Knuth 不是不懂 AI 的外行,恰恰相反——他的严谨和怀疑态度是出了名的。他愿意说出”我得修正我的看法”,说明 Claude Opus 4.6 展示出的数学推理能力,确实触动了他。
AI 解开数学难题不是第一次,但被 Knuth 本人背书还是第一次。
⚔️ Anthropic 对抗美国国防部:AI 公司第一次和政府正面硬刚
来源:Anthropic 官方声明,2026-03-04/03-05
这件事的始末:
3月4日,Anthropic 收到美国国防部(文件用”Department of War”)来信,宣布将 Anthropic 列为”供应链安全风险”——这意味着美国军方合同商将无法使用 Claude。与此同时,五角大楼宣布与 OpenAI 签署合作协议。
Dario Amodei 随即发表公开声明:Anthropic 认为这一行动在法律上站不住脚,将提起诉讼。
Anthropic 的立场:
- 他们支持军事 AI 应用(情报分析、网络作战、运营规划)
- 他们的唯一两条红线是:”完全自主致命武器”和”大规模国内监控”
- 这两条限制与运营决策无关,仅涉及高层次使用领域
这件事具有标志性意义:这是头部 AI 公司第一次与美国政府在大模型应用边界上发生正面冲突,并选择了公开对抗而非妥协。
从商业角度看,这对 Anthropic 短期内有损失(美国政府市场);但从长期品牌角度,它清晰传递了一个信号:Claude 不是无原则的工具,有底线。
结合本周 Claude Opus 4.6 在 Knuth 数学难题上的表现,以及此前 Anthropic 宣布”Claude 永不植入广告”——这家公司正在用一种独特的方式定位自己:有价值观的最强模型提供商。
三、这周在说一件什么大事?
如果要我用一句话总结这周:AI 行业正在经历”产能过剩 + 人才争夺”的双重挤压。
模型越发越快——GPT-5.4 刚发,Google 同时推了两款,各家都在强调自己的 benchmark 最高、价格最低。但在这个高速扩张的外壳下,隐藏着一个脆弱的内核:顶尖 AI 研究员的数量,远远跟不上需求。
Qwen 团队的集体出走,是这个矛盾最直白的暴露。中国最好的开源 AI 团队之一,因为一次内部权力重组,在数小时内瓦解——技术本身完好,但造技术的人散了。
这让我想到一个问题:我们现在衡量 AI 公司的标准,是 benchmark、是融资额、是产品数量。但也许更应该关注的是:他们的核心研究团队,还在吗?
GPT-5.4 能解决大多数白领的工作问题,这是真的。但能训练出下一个 GPT-5.4 的团队,才是接下来竞争的真正筹码。
🔔 关注这个公众号,每周追踪大模型最新动态,不废话,只讲你真正需要知道的那些。
本文数据来源:OpenAI 官方博客、Google DeepMind Blog、Anthropic News、Simon Willison’s Weblog、The Batch (DeepLearning.AI)、36Kr








