“智能太便宜了”:本周大模型圈,正在发生一场价格革命

📅 2026-03-13|约5200字|阅读约14分钟


这周 AI 圈有句话在传:**”Intelligence too cheap to meter.”**

说这话的,是国内 AI 公司 MiniMax。他们刚发布了 M2.5,宣称 $1 可以让模型以 100 token/s 的速度持续运行一小时。折算一下,这个价格比很多云服务器还便宜。

与此同时,Google 的 Gemini 3.1 Flash-Lite 在 $0.25/百万 token 的价位上,达到了上一代大模型的顶尖水平;NVIDIA 开源了 120B 参数的 Nemotron-3 Super,架构完全创新;阿里 Qwen3.5 在 HuggingFace 全面霸榜……

一个新的格局正在成形:大模型的智能正在极速商品化。

这意味着什么?未来会发生什么?本周,我们一起来梳理。


一、本周大模型动态一览

事件 发布方 亮点
Claude Sonnet 4.6 上线 Anthropic 接近Opus级智能,Sonnet价格,1M上下文窗口
Gemini 3.1 Flash-Lite Google $0.25/M tokens,速度提升2.5x
MiniMax M2.5 发布 MiniMax(国内) SWE-Bench 80.2%,$1/小时连续运行
Nemotron-3-Super 120B NVIDIA 开源混合架构,12B active参数,1M上下文
Qwen3.5 系列霸榜HF 阿里云 支持201语言,多模态统一架构,全系开源
Nano Banana 2 发布 Google 图像生成速度提4倍,价格降半
NYT深度报道:AI编程的分水岭 纽约时报 70+开发者访谈,揭示行业真实分裂

二、重点拆解


🔥 MiniMax M2.5:国内首个”智能近乎免费”的前沿模型

如果要选本周最让人眼前一亮的发布,M2.5 绝对排第一。

不是因为它最强(虽然它在 SWE-Bench Verified 上拿到了 80.2% 的行业第一),而是因为它重新定义了”什么叫便宜”。

数字先说话:

  • SWE-Bench Verified:80.2%(行业第一)
  • Multi-SWE-Bench:51.3%
  • BrowseComp(含上下文管理):76.3%
  • 完成 SWE-Bench 评测的速度比上一代 M2.1 快 37%,与 Claude Opus 4.6 相当
  • 成本:$1/小时以 100 token/s 连续运行;50 token/s 时只要 $0.30

后两个数字请停一下,重新感受一下。

以 50 token/s 跑模型,每小时 0.3 美元。这不只是”便宜”,这是模型按使用时间计费的逻辑出现了——就像以前云服务器按小时付费一样,AI 算力开始走向”包时”。

在 Coding 能力上,M2.5 有个很有趣的设计:训练数据覆盖 200,000+ 真实开发环境,涵盖 Web/Android/iOS/Windows 全栈,不只是改 Bug,而是跑通从 0→1 设计、1→10 开发、到 90→100 代码审查的全生命周期。

更值得注意的是,M2.5 在 Droid 和 OpenCode 两个不同的 coding agent 测试框架上,拿到了比 Claude Opus 4.6 更高的分数——这意味着它的 agent 泛化能力真的不弱。

国内 AI 公司在沉寂了一段时间后,M2.5 是一个明确的信号:中国团队已经重新站到了 agent 时代的前排。


🚀 Claude Sonnet 4.6:Sonnet 的价格,Opus 的脑子

Anthropic 在 2 月 17 日发布了 Claude Sonnet 4.6,已成为 claude.ai 的默认模型。

核心卖点是:以前需要 Opus 级别模型才能完成的任务,Sonnet 4.6 可以搞定,但价格还是 Sonnet 级别($3/$15 per M tokens)。

有多强?三个数据说话:

① 代码能力显著跃升

  • Claude Code 测试中,用户更倾向于用 Sonnet 4.6 而非 Sonnet 4.5 的比例:70%
  • 更惊人的是,用户甚至以 59% 的比例更倾向于它而非 Opus 4.5(去年 11 月的旗舰模型)
  • 在 OSWorld(真实软件操作评测,包括 Chrome / LibreOffice / VS Code)上,表现大幅提升

② 计算机使用能力大进化
Sonnet 4.6 在计算机操作能力上有”质变”级别的提升:可以导航复杂电子表格、填写多步骤网页表单,在部分任务上达到人类水平。

对 prompt injection 的抵抗力也大幅提升,这对做 agent 的开发者非常重要。

③ 百万 token 上下文窗口(beta)
1M token 的上下文窗口正式进入 beta 阶段。对于需要处理长文档、代码库级别上下文的任务来说,这是关键能力。

Anthropic 还公布了一件有意思的小事:Sonnet 4.6 被形容拥有”broadly warm, honest, prosocial, and at times funny character”——安全研究团队在评估模型性格时,给出了罕见的正面评价。一个模型够好用还有好人品,当然优先选它。


💡 Gemini 3.1 Flash-Lite:Google 打响性价比战争

同样是 3 月上旬,Google 发布了 Gemini 3.1 Flash-Lite。

看数字:

  • 价格:$0.25/M input,$1.50/M output(是 Gemini 3.1 Pro 价格的 1/8!)
  • 速度:Time to First Answer Token 比 2.5 Flash 快 2.5 倍,输出速度提升 45%
  • 质量:在 Arena.ai 榜单上 Elo 分达到 1432,在 GPQA Diamond 上拿到 86.9%,甚至超过了上一代更大的 Gemini 2.5 Flash

更有意思的是,Flash-Lite 内置了可调节的 Thinking Levels——开发者可以选择让模型”想多少”,从最小化推理到深度推理,动态控制成本和质量的平衡点。这个设计在高频、大量 API 调用场景下极有价值。

Google 在高频、大体量的商业场景(内容审核、翻译、UI 生成、模拟器)已经建立了明显的成本优势。在很多不需要顶级推理能力的场景里,Flash-Lite 将成为首选。

这也清楚揭示了 Google 的策略:用 Flash 系列覆盖量大价低的场景,把 Pro 系列留给真正复杂的任务。


🤖 NVIDIA Nemotron-3-Super 120B:芯片巨头亲自下场造模型

3 月 11 日,NVIDIA 发布了 Nemotron-3-Super,这是一个值得深看的开源模型。

核心参数:

  • 总参数量 120B,但 active 参数只有 12B(节省 90% 计算量)
  • 架构:Hybrid LatentMoE,融合了 Mamba-2 + MoE + Attention 三种架构
  • 引入了 Multi-Token Prediction(MTP),生成速度更快
  • 上下文长度:1M tokens
  • 支持推理模式开关(enable_thinking=True/False)
  • 支持 7 种语言(含中文)

NVIDIA 做这个模型的逻辑很清楚:他们的核心生意是卖芯片,但要卖出更多芯片,就需要让开发者感受到”跑在 H100 上的开源模型有多好”——Nemotron 系列就是他们的”Demo + 生态锁定”工具。

架构上,Mamba-2 + MoE + Attention 的混合方案是目前最前沿的方向之一:Mamba 擅长处理长序列(线性复杂度),MoE 控制计算成本,Attention 负责精确的全局关注——三者取长补短。

对于企业用户来说,Nemotron-3-Super 的特点是:少部分场景用 12B 的 active 算力,获得 120B 模型的表现,这在 IT 票务自动化、长文档 RAG、agentic 工作流这类场景里,性价比非常高。

NVIDIA 给出的最低 GPU 要求是 8×H100-80GB——门槛不低,但如果你已经有 H100 集群,这个模型值得认真试。


🌏 Qwen3.5:阿里开源,201语言,全球跑

本周 HuggingFace 趋势榜,被 Qwen3.5 系列牢牢霸榜。

Qwen3.5 最大的特点不是某个 benchmark,而是几个设计选择:

① 视觉-语言早期融合(Early Fusion)
Qwen3.5 把视觉 token 和语言 token 在预训练阶段就统一处理,而不是传统的”语言模型+视觉编码器”拼接方案。结果是:在 reasoning、coding、agents、visual understanding 四个维度上,同参数量超过了专门调优的视觉模型 Qwen3-VL。

② 多语言覆盖 201 语言
这是非常认真的国际化布局。大多数模型号称”多语言”,实际支持可能只有十几种主流语言,而 201 语言是真正覆盖到了中小语种和方言。

③ Hybrid 架构:Gated Delta Networks + MoE,推理吞吐量高,latency 低

在 HuggingFace,Qwen3.5-9B 的下载量超过 150 万次,Qwen3.5-35B-A3B 也是趋势榜前五。这说明开发者社区对它的认可度相当高。

对于国内企业和开发者而言,Qwen3.5 是目前综合性价比最高的自部署选择之一:开源可商用、多语言、视觉理解到位、参数规模灵活(从 0.8B 到 35B 都有)。


🎨 Nano Banana 2:Google 的图像生成降维打击

Google 还发布了 Nano Banana 2(正式名:Gemini 3.1 Flash Image),是图像生成模型。

关键数字:

  • 速度:比 Nano Banana Pro(原版)快 4 倍
  • 价格:降低约 50%
  • 质量:在 Arena.ai 文字转图片榜单上领先,图像编辑榜单第二

架构亮点是在 Gemini 3 Flash 的语言/推理能力上叠加图像生成能力,支持:

  • 最高 4096×4096 分辨率,14 种宽高比
  • 多角色一致性(同一批图中最多 5 个角色保持一致)
  • 多语言文字渲染(这是目前业界最难的问题之一)
  • 自动嵌入 SynthID 不可见水印 + C2PA 内容证书

中文文字渲染能力,目前实测是最好的。对于需要生成含中文文字海报、图文内容的场景,这是目前的首选方案。


🤔 NYT 深度调查:AI 正在撕裂程序员群体

这周还有一篇必读的深度报道:纽约时报杂志刊出了 Clive Thompson 的长篇调查《Coding After Coders》,采访了超过 70 位来自 Google、Amazon、Microsoft、Apple 等公司的软件开发者。

核心发现:AI 辅助编程正在暴露开发者群体中一条一直存在、但以前看不见的断层线。

在 AI 出现之前,”热爱写代码的人”和”只想让东西跑起来的人”每天做一样的事——用手敲代码。两类人坐在一起,行为无法区分。

但现在有了叉路口:

  • 一类人让 AI 生成代码,自己专注于方向和架构——“导演”
  • 另一类人坚持手写代码,把 AI 当辅助工具——“工匠”

这个分叉让人更清楚地看到:你当初进入这个行业,究竟是因为热爱编码本身,还是热爱”把东西做出来”?

报道中,一位苹果工程师(匿名)说了句耐人寻味的话:

“我相信手写代码是有趣的、有成就感的、令人投入的。让电脑替你做这件事,剥夺了你的这种体验。”

他要求匿名,因为不想因为”批评苹果拥抱 AI”而惹麻烦——这句话本身,就是对当前企业文化最锐利的注脚。

Simon Willison 的回应则更务实一些:

“我觉得程序员还好。要是律师就惨了——你没有办法自动检测 AI 写的法律简报有没有幻觉。”


三、这周在说一件什么大事?

这周的 AI 圈,几乎每条新闻都在指向同一个方向:大模型的智能正在快速商品化,定价成了新战场。

Gemini Flash-Lite 把旗舰模型的能力装进廉价版;MiniMax 把成本拉到”按小时计费”的水位;Qwen3.5 全面开源;NVIDIA 的 120B 模型用 12B 的计算量跑出来……

这一切都在说:**”模型够不够聪明”已经逐渐不是瓶颈,”用起来够不够便宜、够不够快”才是新的竞争维度。**

这对开发者意味着什么?

好事: 以前需要巨额 API 费用的场景,现在可以真正落地了。实时翻译、大规模内容处理、每个用户都有 AI 助手……这些以前因为成本太高而搁置的想法,可以重新拿出来评估了。

需要注意的事: 当智能变得便宜,壁垒就从”能不能做到”变成”做得更好”和”做得更快”。这是一场新的马拉松,起跑线刚刚到来。

而对于那些在想”AI 会不会取代我”的程序员——NYT 那篇报道给出了一个比较清醒的答案:答案取决于你进入这个行业时,真正热爱的是什么。 如果你热爱的是”构建”,那 AI 只会让你构建得更快;如果你热爱的是”手工敲代码”本身,那可能确实要面对一些东西。

无论如何,这周的信号都很明确:下半场,已经开始了。


📌 关注这个公众号,每周追踪大模型最新动态,不做标题党,只讲值得看的那些事。

如果觉得有用,欢迎转发给也在关注 AI 的朋友 🙏