这周AI圈最魔幻的事：OpenAI发了GPT-5.4，但最大的震动来自阿里

📅 2026-03-06｜约5500字｜阅读约14分钟

本周大模型周报封面

这周大模型圈像是被人扔了两颗手雷。

一颗是明面上的：OpenAI 在3月5日发布了 GPT-5.4，性能碾压 GPT-5.2，Google 也连发 Gemini 3.1 Pro 和 Flash-Lite，两家都在抢”最强模型”的名号。

另一颗是悄悄引爆的：阿里巴巴的 Qwen 团队核心成员集体请辞——就在他们刚刚发布了被业界认为”惊艳”的 Qwen 3.5 系列后不久。

这两件事放在一起，折射出当下 AI 产业的一个深层矛盾：技术的外壳越来越亮，但内部在悄悄地、大规模地重组。

一、本周大模型动态一览

事件	来源	亮点	评分
GPT-5.4 发布	OpenAI	合并 Codex 能力，原生计算机操作，专业工作能力+83%	⭐⭐⭐
Gemini 3.1 Pro 登顶 AI 综合榜	Google DeepMind	同价 Gemini 3 Pro，却在 10 大 benchmark 中领跑 6 项	⭐⭐⭐
Gemini 3.1 Flash-Lite 上线	Google	$0.25/M token，比 2.5 Flash 快 2.5 倍	⭐⭐
Qwen 团队核心成员集体离职	36Kr / Simon Willison	领头人林俊扬离职，多名骨干同日出走	⭐⭐⭐
Claude Opus 4.6 解开 Knuth 数学难题	Donald Knuth 亲撰声明	计算机科学之父为 AI 能力背书，具里程碑意义	⭐⭐⭐
Anthropic vs 美国国防部	Anthropic 官方	Dario 公开声明拒绝”供应链风险”指定，宣布法律挑战	⭐⭐

二、重点拆解

🔥 GPT-5.4：OpenAI 正在打造一个”万能职业助手”

来源：OpenAI 官方博客，2026-03-05

GPT-5.4 核心升级亮点

这次发布最核心的一个数字：**83.0%**。

这是 GPT-5.4 在 GDPval 基准上的成绩——这个基准测的不是数学或编程竞赛题，而是横跨44个职业的真实工作任务：销售演示、财务建模、医疗排班、制造图纸……相当于 AI 圈的”高考综合科”。GPT-5.2 是70.9%，这次直接跳到 83.0%，差距相当大。

具体升级了什么？

① 合并了 GPT-5.3-Codex 的编程能力

一直以来 OpenAI 的编程专用模型和通用模型是两条产品线。GPT-5.4 第一次把两者融合——在编程 SWE-Bench Pro 上超过了 Codex 专用版，同时在通用任务上也没有退步。这意味着”分开维护专用编程模型”的时代，可能要结束了。

② 原生计算机操作能力（Computer Use）

GPT-5.4 是 OpenAI 第一款”通用目的”的计算机操作模型。在 OSWorld-Verified 基准上得了75%，而 GPT-5.2 只有 47.3%。更重要的是，它现在是 API 可用的——开发者可以让 GPT-5.4 直接操控浏览器、桌面应用，不需要额外集成。

③ 办公软件能力大跳跃

OpenAI 罕见地主动对标”初级投行分析师”的工作：在内部电子表格建模基准上，GPT-5.4 得了 87.3%，GPT-5.2 只有 68.4%。有意思的是，这与 Anthropic Claude 的策略方向形成了有趣的呼应——两家都开始把”职场生产力”当成核心卖点。

定价：GPT-5.4 价格略高于 GPT-5.2，但 token 效率提升（推理所需 token 更少），实际使用成本未必更高。

我的判断：GPT-5.4 代表的是 OpenAI 的一个战略转向——从”更聪明”转向”更实用”。未来的大模型竞争，可能不再只比 MATH、GPQA，而是比谁能真的替代白领工作。

🚀 Gemini 3.1 系列：Google 的”价格屠夫”策略

来源：Google DeepMind Blog，2026年2月-3月

Gemini 3.1 Pro vs Flash-Lite 双杀策略

本周 Google 同时推进了两款 Gemini 3.1 产品：

Gemini 3.1 Pro：同价的情况下，在 Artificial Analysis Intelligence Index 综合评分榜上超过了 Claude Opus 4.6（57分 vs 53分）和 GPT-5.2（51分），还在 ARC-AGI-2、GPQA Diamond、Humanity’s Last Exam、BrowseComp 等多个业界关注的顶级基准上达到 SOTA。

值得注意的是，它是以 Gemini 3 Pro 的价格发布的——本质上是免费升级，这让竞争对手很难受。

Gemini 3.1 Flash-Lite：$0.25/百万输入 token，$1.50/百万输出 token。比上一代 2.5 Flash 快 2.5 倍，输出速度提升 45%。同时支持四档”思考强度”可调，开发者可以根据任务复杂度动态平衡成本和质量。

这两款产品合起来，构成了 Google 清晰的”价格-性能双杀”策略：

旗舰端：Gemini 3.1 Pro 用更低价格打进顶级性能段
廉价端：Flash-Lite 以 $0.25 的极低价格覆盖高频调用场景

有意思的一个细节：Gemini 3.1 Flash-Lite 同样有推理能力（thinking levels），而且默认开放——这在主流廉价模型里是稀缺的。

Google 的节奏越来越有进攻性了。

😱 Qwen 团队集体出走：中国开源 AI 的最大变局

来源：Simon Willison’s Blog / 36Kr，2026-03-04

Qwen 核心团队集体离职

这是本周最令人唏嘘的一条消息。

3月4日北京时间凌晨0:11，阿里巴巴 Qwen（通义）大模型技术负责人林俊扬（Junyang Lin）在 X 上发文：**”me stepping down. bye my beloved qwen.”**

林俊扬不是普通员工。他是阿里最年轻的 P10，主导了 Qwen 系列从 2024 年开始的开源模型策略，被认为是 Qwen 能跻身全球顶级开源模型的核心推手之一。

随后，多名骨干同日宣布离职：

惠彬元（Binyuan Hui）：Qwen 代码开发负责人，Qwen-Coder 系列主导者
于博文（Bowen Yu）：Qwen 后训练研究负责人
李凯鑫（Kaixin Li）：Qwen 3.5/VL/Coder 核心贡献者（新加坡国立大学博士）

更多年轻研究员也在同一天离职。

据36Kr报道，阿里 CEO 吴咏明当日紧急召开 All Hands 全员会议，但没有就林俊扬去向给出明确答案。林俊扬本人随后发朋友圈：”Qwen 的兄弟们，按原计划继续，没问题。”——语气模糊，既没否认离职，也没确认回归。

这件事之所以令人震惊，有一个非常重要的背景：Qwen 3.5 系列刚刚于2月中旬发布，并被普遍认为是目前最好的开源模型家族之一。

Simon Willison 的原话：”这是一个真正令人印象深刻的模型家族。397B-A17B 旗舰，再加上 122B、35B、27B、9B、4B、2B、0.8B 的完整小模型阵列，其中 2B 只有 4.57GB，却是全推理、多模态的。”

如果核心团队就此散去，Qwen 3.5 可能真的成为绝唱。

背后原因：据悉触发点是阿里内部重组，一名从 Google Gemini 团队挖来的研究员被委任统管 Qwen，这让原团队难以接受。

这件事提醒了一个残酷事实：在 AI 领域，核心人才 = 核心竞争力。模型可以开源，但能训练出这个模型的人，才是真正的壁垒。

🧠 Donald Knuth 为 Claude 站台：AI 解开了他研究数周的数学难题

来源：Donald Knuth 亲撰 PDF 声明，Simon Willison’s Blog，2026-03-03

Donald Knuth 为 Claude 站台

这条消息不是发布会，没有 PR 稿，没有 benchmark——只是一位老人发了一篇 PDF。

但发这篇 PDF 的人，是 Donald Knuth——《计算机程序设计艺术》作者，图灵奖得主，被誉为计算机科学之父。他一向以对 AI 持怀疑态度著称。

原文引用：

“Shock! Shock! I learned yesterday that an open problem I’d been working on for several weeks had just been solved by Claude Opus 4.6 — Anthropic’s hybrid reasoning model that had been released three weeks earlier! It seems that I’ll have to revise my opinions about ‘generative AI’ one of these days. What a joy it is to learn not only that my conjecture has a nice solution but also to celebrate this dramatic advance in automatic deduction and creative problem solving.”

翻译：震惊！我研究了数周的一个开放问题，昨天被 Claude Opus 4.6 解决了。看来有一天我得重新评估我对”生成式 AI”的看法了。

这段话的分量，远超任何一篇技术论文。Knuth 不是不懂 AI 的外行，恰恰相反——他的严谨和怀疑态度是出了名的。他愿意说出”我得修正我的看法”，说明 Claude Opus 4.6 展示出的数学推理能力，确实触动了他。

AI 解开数学难题不是第一次，但被 Knuth 本人背书还是第一次。

⚔️ Anthropic 对抗美国国防部：AI 公司第一次和政府正面硬刚

来源：Anthropic 官方声明，2026-03-04/03-05

这件事的始末：

3月4日，Anthropic 收到美国国防部（文件用”Department of War”）来信，宣布将 Anthropic 列为”供应链安全风险”——这意味着美国军方合同商将无法使用 Claude。与此同时，五角大楼宣布与 OpenAI 签署合作协议。

Dario Amodei 随即发表公开声明：Anthropic 认为这一行动在法律上站不住脚，将提起诉讼。

Anthropic 的立场：

他们支持军事 AI 应用（情报分析、网络作战、运营规划）
他们的唯一两条红线是：”完全自主致命武器”和”大规模国内监控”
这两条限制与运营决策无关，仅涉及高层次使用领域

这件事具有标志性意义：这是头部 AI 公司第一次与美国政府在大模型应用边界上发生正面冲突，并选择了公开对抗而非妥协。

从商业角度看，这对 Anthropic 短期内有损失（美国政府市场）；但从长期品牌角度，它清晰传递了一个信号：Claude 不是无原则的工具，有底线。

结合本周 Claude Opus 4.6 在 Knuth 数学难题上的表现，以及此前 Anthropic 宣布”Claude 永不植入广告”——这家公司正在用一种独特的方式定位自己：有价值观的最强模型提供商。

三、这周在说一件什么大事？

AI 行业深层矛盾：产能过剩 vs 人才稀缺

如果要我用一句话总结这周：AI 行业正在经历”产能过剩 + 人才争夺”的双重挤压。

模型越发越快——GPT-5.4 刚发，Google 同时推了两款，各家都在强调自己的 benchmark 最高、价格最低。但在这个高速扩张的外壳下，隐藏着一个脆弱的内核：顶尖 AI 研究员的数量，远远跟不上需求。

Qwen 团队的集体出走，是这个矛盾最直白的暴露。中国最好的开源 AI 团队之一，因为一次内部权力重组，在数小时内瓦解——技术本身完好，但造技术的人散了。

这让我想到一个问题：我们现在衡量 AI 公司的标准，是 benchmark、是融资额、是产品数量。但也许更应该关注的是：他们的核心研究团队，还在吗？

GPT-5.4 能解决大多数白领的工作问题，这是真的。但能训练出下一个 GPT-5.4 的团队，才是接下来竞争的真正筹码。

🔔 关注这个公众号，每周追踪大模型最新动态，不废话，只讲你真正需要知道的那些。

本文数据来源：OpenAI 官方博客、Google DeepMind Blog、Anthropic News、Simon Willison’s Weblog、The Batch (DeepLearning.AI)、36Kr