阿里 Qwen 两周连发 5 款模型，这次是认真的

最近半个月，阿里 Qwen 团队明显加速了——Qwen3.5 从旗舰大模型一路补齐小模型，同时还发布了生图模型、图片编辑模型、安全审核模型，以及翻译专用模型。

一个团队，两周内，五条产品线同时推进。今天我们来把这波发布梳理清楚。

一、Qwen3.5：从 397B 到 0.8B，全尺寸覆盖完成

Qwen3.5 是这波发布的主线。

发布时间线：

2026-02-16：发布旗舰版 Qwen3.5-397B-A17B（MoE，激活参数 17B）
2026-02-24：补充中型号 Qwen3.5-122B-A10B、Qwen3.5-35B-A3B、Qwen3.5-27B
2026-03-02：发布小模型 Qwen3.5-9B、4B、2B、0.8B

至此，Qwen3.5 覆盖从 0.8B 到 397B 的完整尺寸谱系，开发者可以按需选择。

Qwen3.5 旗舰版性能评测

Qwen3.5 的四大核心升级：

① 原生多模态融合
不是”视觉模块插件”，而是从预训练阶段就在多模态 token 上联合训练，视觉理解与语言推理能力同步提升，超越了此前独立训练的 Qwen3-VL 系列。

② 高效混合架构
采用 Gated Delta Networks + 稀疏 MoE 组合，在保持高性能的同时大幅降低推理延迟和成本。

③ 大规模 RL 泛化
强化学习扩展到百万级 Agent 环境，任务复杂度逐级递增，提升真实场景的适应能力。

④ 201 种语言支持
覆盖全球 95% 以上人口使用的语言和方言，真正做到全球化部署。

小模型（0.8B-9B）全部开源，可从 Hugging Face 或 ModelScope 下载。

二、Qwen-Image：中文生图终于有了有力竞争者

Qwen-Image 是一个 20B 参数的 MMDiT 图像基础模型，主打中英文文字渲染。

这件事值得单独说一下：AI 生图领域长期存在一个痛点——中文字符渲染失败。Stable Diffusion、DALL-E、Flux 生成中文都容易出现乱码、变形、错字。

Qwen-Image 在这方面做到了：

支持多行布局、段落级语义渲染
中文字符高保真，笔画结构正确
英文字母同样清晰精准

Qwen-Image 中英文文字渲染与生图能力展示

在 GenEval、DPG、OneIG-Bench 等生成 benchmark，以及 LongText-Bench、ChineseWord、TextCraft 等文字渲染 benchmark 上，Qwen-Image 均达到 SOTA。

可以在 Qwen Chat（chat.qwenlm.ai）的”Image Generation”功能里直接体验。

三、Qwen-Image-Edit：精准编辑，连字体都能改

Qwen-Image-Edit 基于 Qwen-Image 20B 底座，专门针对图片编辑任务优化。

核心能力：

语义编辑：改变图片内容和风格，同时保持原始语义一致性。比如把图片里的角色换装、换背景，人物特征完整保留。

外观编辑：精确修改像素级细节，只改要改的区域，其他部分完全不动。

文字编辑（亮点）：支持中英文双语，可以直接修改图片中的文字，同时保持原有字体、大小和样式。这个能力在实际工作中极为实用——改海报文字、修宣传图、调整 UI 截图，不用重新设计。

技术上，Qwen-Image-Edit 同时将输入图片送入 Qwen2.5-VL（负责语义控制）和 VAE Encoder（负责外观控制），实现语义和外观的双重精准把控。

可在 Qwen Chat 的”Image Editing”功能体验。

横向对比：Qwen-Image-Edit vs Gemini 3 Pro Image vs GPT-4o Image

图片编辑这个赛道，目前三个模型最值得关注：Qwen-Image-Edit（阿里开源）、Gemini 3 Pro Image（Google，业内昵称 Nano Banana Pro）、GPT-4o Image（OpenAI，模型名 gpt-image-1）。

① 中文文字编辑能力

这是最核心的差异点。

Qwen-Image-Edit 天生就为中文而生——底座 Qwen-Image 本身就是全球中文文字渲染最强的生图模型之一，支持改字时完整保留原始字体、大小和样式。改海报标题、修宣传图文案，一句话指令搞定。甚至支持链式分步纠错：先框出要改的区域，再逐步精确修改，可以精确到某个笔画的偏旁部首。

Gemini 3 Pro Image 同样对中文支持出色，坐标定位精准，结合外部脚本可以先检测文字坐标、再精确替换，改后整体画面保真度高。

GPT-4o Image 支持中文，但中文字符的细节（笔画复杂度、字形还原）略弱于前两者，对英文和拉丁字母表现更稳定。

② 编辑能力范围

Qwen-Image-Edit 提供两种编辑模式，这是它独特的双通道架构带来的优势：

语义编辑：修改图片内容和整体风格，同时保持原始语义一致性。比如把角色换装、换背景、转换为吉卜力动画风格，人物特征完整保留。
外观编辑：精确修改像素级局部细节，只改要改的区域，其他区域完全不动。比如给场景添加招牌（还会自动生成倒影细节）、去除细碎发丝、只改某个字母的颜色。

技术上，它同时将输入图片送入 Qwen2.5-VL（负责语义理解和控制）和 VAE Encoder（负责外观像素控制），实现双重精准把控——这是 Qwen-Image-Edit 架构上最大的亮点。

Gemini 3 Pro Image 擅长局部文字替换、风格迁移和图片超分放大，改字后整体画面保真度很高，但语义编辑（如换装、风格转换）相对没有 Qwen-Image-Edit 那么细腻。

GPT-4o Image 是全功能选手：文字渲染、风格转换、局部编辑、图片修改都能做，并且因为图像生成是原生内置于 GPT-4o 而非外挂模块，模型能理解并利用对话上下文，在多轮交互中保持图像一致性。官方数据显示，它可以处理单张图里 10-20 个独立对象，并对每个对象的颜色、位置、状态精确控制。

③ 交互体验

对比维度	Qwen-Image-Edit	Gemini 3 Pro Image	GPT-4o Image
交互方式	单轮指令 / API / Qwen Chat	两步流程（坐标检测 → 精确替换）	对话式多轮迭代，跨轮一致
链式修改	✅ 支持逐步框区域纠错	需手动多次调用脚本	✅ 对话上下文自动衔接
改完后超分	暂无原生超分接口	✅ 支持 1K/2K/4K 超分输出	✅ 支持多种标准尺寸
开放程度	✅ 开源（HuggingFace 可下载） + 免费体验	Google AI Studio 免费	付费 API

④ 适用场景推荐

改中文海报/UI截图/宣传图文字 → Qwen-Image-Edit 首选，字体保留最完整，开源可本地部署
高精度坐标定位改字 + 输出要 2K/4K 高清 → Gemini 3 Pro Image，结合检测脚本定位更稳，超分效果好
创意类多轮迭代、需要自然对话修改、不在乎费用 → GPT-4o Image，体验最流畅，跨轮一致性最强

三个模型各有侧重，Qwen-Image-Edit 的亮点在于开源 + 中文专精 + 双通道架构，是目前开源图片编辑模型里能力最全面的之一。

四、Qwen3Guard：实时流式安全审核，业界首次

这是 Qwen 系列第一个安全护栏模型，用于检测 AI 输出内容是否安全。

Qwen3Guard 实时安全审核架构

两种变体：

Qwen3Guard-Gen：离线模式，接受完整的用户 prompt 和模型回复，进行安全分类。适合数据集过滤、RL 奖励信号生成。
Qwen3Guard-Stream（关键创新）：实时流式检测，在模型逐 token 生成过程中同步审核，不需要等生成完毕。这是开源模型中首次实现此类能力，对生产环境的实时应用价值极大。

三种尺寸： 0.6B、4B、8B，适配不同资源场景。

支持中文、英文及多语言环境，在主流安全 benchmark 上达到 SOTA。阿里云也提供了基于 Qwen3Guard 的 AI Guardrails 商业服务。

五、Qwen-MT：92 种语言，机器翻译重新定义

Qwen-MT（qwen-mt-turbo）是基于 Qwen3 微调的翻译专用模型，通过 Qwen API 提供服务。

Qwen3.5 中型号性能对比

核心数据：

支持 92 种主要语言和方言
覆盖全球超 95% 人口
集成强化学习，显著提升翻译准确性和语言流畅度

这不是 Qwen3 套了个翻译 prompt——而是用数万亿多语言翻译 token 专门训练，加上 RL 对齐，是正经的翻译垂直模型。

总结：Qwen 在下一盘大棋

Qwen3.5 小模型性能评测

梳理完这五条产品线，可以看到一个清晰的战略：

模型	定位
Qwen3.5 全系列	基础大模型，0.8B-397B 全覆盖
Qwen-Image	生图基础模型，中文文字渲染领先
Qwen-Image-Edit	图片精准编辑，文字改写
Qwen3Guard	安全审核，实时流式检测
Qwen-MT	92语言翻译专用