“智能太便宜了”：本周大模型圈，正在发生一场价格革命

📅 2026-03-13｜约5200字｜阅读约14分钟

这周 AI 圈有句话在传：**”Intelligence too cheap to meter.”**

说这话的，是国内 AI 公司 MiniMax。他们刚发布了 M2.5，宣称 $1 可以让模型以 100 token/s 的速度持续运行一小时。折算一下，这个价格比很多云服务器还便宜。

与此同时，Google 的 Gemini 3.1 Flash-Lite 在 $0.25/百万 token 的价位上，达到了上一代大模型的顶尖水平；NVIDIA 开源了 120B 参数的 Nemotron-3 Super，架构完全创新；阿里 Qwen3.5 在 HuggingFace 全面霸榜……

一个新的格局正在成形：大模型的智能正在极速商品化。

这意味着什么？未来会发生什么？本周，我们一起来梳理。

一、本周大模型动态一览

事件	发布方	亮点
Claude Sonnet 4.6 上线	Anthropic	接近Opus级智能，Sonnet价格，1M上下文窗口
Gemini 3.1 Flash-Lite	Google	$0.25/M tokens，速度提升2.5x
MiniMax M2.5 发布	MiniMax（国内）	SWE-Bench 80.2%，$1/小时连续运行
Nemotron-3-Super 120B	NVIDIA	开源混合架构，12B active参数，1M上下文
Qwen3.5 系列霸榜HF	阿里云	支持201语言，多模态统一架构，全系开源
Nano Banana 2 发布	Google	图像生成速度提4倍，价格降半
NYT深度报道：AI编程的分水岭	纽约时报	70+开发者访谈，揭示行业真实分裂

二、重点拆解

🔥 MiniMax M2.5：国内首个”智能近乎免费”的前沿模型

如果要选本周最让人眼前一亮的发布，M2.5 绝对排第一。

不是因为它最强（虽然它在 SWE-Bench Verified 上拿到了 80.2% 的行业第一），而是因为它重新定义了”什么叫便宜”。

数字先说话：

SWE-Bench Verified：80.2%（行业第一）
Multi-SWE-Bench：51.3%
BrowseComp（含上下文管理）：76.3%
完成 SWE-Bench 评测的速度比上一代 M2.1 快 37%，与 Claude Opus 4.6 相当
成本：$1/小时以 100 token/s 连续运行；50 token/s 时只要 $0.30

后两个数字请停一下，重新感受一下。

以 50 token/s 跑模型，每小时 0.3 美元。这不只是”便宜”，这是模型按使用时间计费的逻辑出现了——就像以前云服务器按小时付费一样，AI 算力开始走向”包时”。

在 Coding 能力上，M2.5 有个很有趣的设计：训练数据覆盖 200,000+ 真实开发环境，涵盖 Web/Android/iOS/Windows 全栈，不只是改 Bug，而是跑通从 0→1 设计、1→10 开发、到 90→100 代码审查的全生命周期。

更值得注意的是，M2.5 在 Droid 和 OpenCode 两个不同的 coding agent 测试框架上，拿到了比 Claude Opus 4.6 更高的分数——这意味着它的 agent 泛化能力真的不弱。

国内 AI 公司在沉寂了一段时间后，M2.5 是一个明确的信号：中国团队已经重新站到了 agent 时代的前排。

🚀 Claude Sonnet 4.6：Sonnet 的价格，Opus 的脑子

Anthropic 在 2 月 17 日发布了 Claude Sonnet 4.6，已成为 claude.ai 的默认模型。

核心卖点是：以前需要 Opus 级别模型才能完成的任务，Sonnet 4.6 可以搞定，但价格还是 Sonnet 级别（$3/$15 per M tokens）。

有多强？三个数据说话：

① 代码能力显著跃升

Claude Code 测试中，用户更倾向于用 Sonnet 4.6 而非 Sonnet 4.5 的比例：70%
更惊人的是，用户甚至以 59% 的比例更倾向于它而非 Opus 4.5（去年 11 月的旗舰模型）
在 OSWorld（真实软件操作评测，包括 Chrome / LibreOffice / VS Code）上，表现大幅提升

② 计算机使用能力大进化
Sonnet 4.6 在计算机操作能力上有”质变”级别的提升：可以导航复杂电子表格、填写多步骤网页表单，在部分任务上达到人类水平。

对 prompt injection 的抵抗力也大幅提升，这对做 agent 的开发者非常重要。

③ 百万 token 上下文窗口（beta）
1M token 的上下文窗口正式进入 beta 阶段。对于需要处理长文档、代码库级别上下文的任务来说，这是关键能力。

Anthropic 还公布了一件有意思的小事：Sonnet 4.6 被形容拥有”broadly warm, honest, prosocial, and at times funny character”——安全研究团队在评估模型性格时，给出了罕见的正面评价。一个模型够好用还有好人品，当然优先选它。

💡 Gemini 3.1 Flash-Lite：Google 打响性价比战争

同样是 3 月上旬，Google 发布了 Gemini 3.1 Flash-Lite。

看数字：

价格：$0.25/M input，$1.50/M output（是 Gemini 3.1 Pro 价格的 1/8！）
速度：Time to First Answer Token 比 2.5 Flash 快 2.5 倍，输出速度提升 45%
质量：在 Arena.ai 榜单上 Elo 分达到 1432，在 GPQA Diamond 上拿到 86.9%，甚至超过了上一代更大的 Gemini 2.5 Flash

更有意思的是，Flash-Lite 内置了可调节的 Thinking Levels——开发者可以选择让模型”想多少”，从最小化推理到深度推理，动态控制成本和质量的平衡点。这个设计在高频、大量 API 调用场景下极有价值。

Google 在高频、大体量的商业场景（内容审核、翻译、UI 生成、模拟器）已经建立了明显的成本优势。在很多不需要顶级推理能力的场景里，Flash-Lite 将成为首选。

这也清楚揭示了 Google 的策略：用 Flash 系列覆盖量大价低的场景，把 Pro 系列留给真正复杂的任务。

🤖 NVIDIA Nemotron-3-Super 120B：芯片巨头亲自下场造模型

3 月 11 日，NVIDIA 发布了 Nemotron-3-Super，这是一个值得深看的开源模型。

核心参数：

总参数量 120B，但 active 参数只有 12B（节省 90% 计算量）
架构：Hybrid LatentMoE，融合了 Mamba-2 + MoE + Attention 三种架构
引入了 Multi-Token Prediction（MTP），生成速度更快
上下文长度：1M tokens
支持推理模式开关（enable_thinking=True/False）
支持 7 种语言（含中文）

NVIDIA 做这个模型的逻辑很清楚：他们的核心生意是卖芯片，但要卖出更多芯片，就需要让开发者感受到”跑在 H100 上的开源模型有多好”——Nemotron 系列就是他们的”Demo + 生态锁定”工具。

架构上，Mamba-2 + MoE + Attention 的混合方案是目前最前沿的方向之一：Mamba 擅长处理长序列（线性复杂度），MoE 控制计算成本，Attention 负责精确的全局关注——三者取长补短。

对于企业用户来说，Nemotron-3-Super 的特点是：少部分场景用 12B 的 active 算力，获得 120B 模型的表现，这在 IT 票务自动化、长文档 RAG、agentic 工作流这类场景里，性价比非常高。

NVIDIA 给出的最低 GPU 要求是 8×H100-80GB——门槛不低，但如果你已经有 H100 集群，这个模型值得认真试。

🌏 Qwen3.5：阿里开源，201语言，全球跑

本周 HuggingFace 趋势榜，被 Qwen3.5 系列牢牢霸榜。

Qwen3.5 最大的特点不是某个 benchmark，而是几个设计选择：

① 视觉-语言早期融合（Early Fusion）
Qwen3.5 把视觉 token 和语言 token 在预训练阶段就统一处理，而不是传统的”语言模型+视觉编码器”拼接方案。结果是：在 reasoning、coding、agents、visual understanding 四个维度上，同参数量超过了专门调优的视觉模型 Qwen3-VL。

② 多语言覆盖 201 语言
这是非常认真的国际化布局。大多数模型号称”多语言”，实际支持可能只有十几种主流语言，而 201 语言是真正覆盖到了中小语种和方言。

③ Hybrid 架构：Gated Delta Networks + MoE，推理吞吐量高，latency 低

在 HuggingFace，Qwen3.5-9B 的下载量超过 150 万次，Qwen3.5-35B-A3B 也是趋势榜前五。这说明开发者社区对它的认可度相当高。

对于国内企业和开发者而言，Qwen3.5 是目前综合性价比最高的自部署选择之一：开源可商用、多语言、视觉理解到位、参数规模灵活（从 0.8B 到 35B 都有）。

🎨 Nano Banana 2：Google 的图像生成降维打击

Google 还发布了 Nano Banana 2（正式名：Gemini 3.1 Flash Image），是图像生成模型。

关键数字：

速度：比 Nano Banana Pro（原版）快 4 倍
价格：降低约 50%
质量：在 Arena.ai 文字转图片榜单上领先，图像编辑榜单第二

架构亮点是在 Gemini 3 Flash 的语言/推理能力上叠加图像生成能力，支持：

最高 4096×4096 分辨率，14 种宽高比
多角色一致性（同一批图中最多 5 个角色保持一致）
多语言文字渲染（这是目前业界最难的问题之一）
自动嵌入 SynthID 不可见水印 + C2PA 内容证书

中文文字渲染能力，目前实测是最好的。对于需要生成含中文文字海报、图文内容的场景，这是目前的首选方案。

🤔 NYT 深度调查：AI 正在撕裂程序员群体

这周还有一篇必读的深度报道：纽约时报杂志刊出了 Clive Thompson 的长篇调查《Coding After Coders》，采访了超过 70 位来自 Google、Amazon、Microsoft、Apple 等公司的软件开发者。

核心发现：AI 辅助编程正在暴露开发者群体中一条一直存在、但以前看不见的断层线。

在 AI 出现之前，”热爱写代码的人”和”只想让东西跑起来的人”每天做一样的事——用手敲代码。两类人坐在一起，行为无法区分。

但现在有了叉路口：

一类人让 AI 生成代码，自己专注于方向和架构——“导演”
另一类人坚持手写代码，把 AI 当辅助工具——“工匠”

这个分叉让人更清楚地看到：你当初进入这个行业，究竟是因为热爱编码本身，还是热爱”把东西做出来”？

报道中，一位苹果工程师（匿名）说了句耐人寻味的话：

“我相信手写代码是有趣的、有成就感的、令人投入的。让电脑替你做这件事，剥夺了你的这种体验。”

他要求匿名，因为不想因为”批评苹果拥抱 AI”而惹麻烦——这句话本身，就是对当前企业文化最锐利的注脚。

Simon Willison 的回应则更务实一些：

“我觉得程序员还好。要是律师就惨了——你没有办法自动检测 AI 写的法律简报有没有幻觉。”

三、这周在说一件什么大事？

这周的 AI 圈，几乎每条新闻都在指向同一个方向：大模型的智能正在快速商品化，定价成了新战场。

Gemini Flash-Lite 把旗舰模型的能力装进廉价版；MiniMax 把成本拉到”按小时计费”的水位；Qwen3.5 全面开源；NVIDIA 的 120B 模型用 12B 的计算量跑出来……

这一切都在说：**”模型够不够聪明”已经逐渐不是瓶颈，”用起来够不够便宜、够不够快”才是新的竞争维度。**

这对开发者意味着什么？

好事： 以前需要巨额 API 费用的场景，现在可以真正落地了。实时翻译、大规模内容处理、每个用户都有 AI 助手……这些以前因为成本太高而搁置的想法，可以重新拿出来评估了。

需要注意的事： 当智能变得便宜，壁垒就从”能不能做到”变成”做得更好”和”做得更快”。这是一场新的马拉松，起跑线刚刚到来。

而对于那些在想”AI 会不会取代我”的程序员——NYT 那篇报道给出了一个比较清醒的答案：答案取决于你进入这个行业时，真正热爱的是什么。 如果你热爱的是”构建”，那 AI 只会让你构建得更快；如果你热爱的是”手工敲代码”本身，那可能确实要面对一些东西。

无论如何，这周的信号都很明确：下半场，已经开始了。

📌 关注这个公众号，每周追踪大模型最新动态，不做标题党，只讲值得看的那些事。

如果觉得有用，欢迎转发给也在关注 AI 的朋友 🙏