今天（4 月 29 日）凌晨，阿里巴巴推出了 4 月压轴的一款大语言模型——Qwen3 系列。

而在这个月，Meta、字节跳动、OpenAI、Google、百度都在稍早前推出了新的大模型，OpenAI 甚至一次性拿出三款大模型，百度也在这周举行的 Create 2025 百度 AI 开发者大会上发布了两款大模型。

但在这一众新模型中，阿里还能搞出什么新意？事实上还真有，除了继续保持开源路线，Qwen3 系列作为阿里定位中的旗舰大模型，在模型性能上也有了不小的进步，再次缩小与顶尖大模型之间的能力差。

此外，Qwen3 系列还是一款混合推理模型，甚至官方博文的标题就是《Qwen3：思深，行速》。简单来说，Qwen3 支持思考模式和非思考模式，而不像 DeepSeek 深度思考下是 R1，关闭深度思考其实是 V3。

图/雷科技

关于混合推理模型，雷科技在今年 2 月就报道并介绍了首款混合推理模型，以及混合推理的优势所在，并指出：「混合推理模式」可能会成为大模型发展的下一个标准配置。

而回到阿里刚刚发布的 Qwen3 系列，作为国内首个混合推理模型，也是首个混合推理开源模型，再加上模型性能方面的进步，也难怪 Qwen3 推出仅仅四个小时后，就在全球最大开发者社区 Github 拿到了 1.7 万个 Star。

问题在于，在模型跑分越来越受争议的今天，Qwen3 系列实际上真能兑现跑分体现出的能力，以及混合推理模型的优势吗？

跑分追上顶级闭源模型，阿里 Qwen3 成色几何？

毫无疑问，Qwen3 系列最大的亮点之一就是通过引入混合推理设计，实现了同一模型的「思考模式」与「非思考模式」，阿里这次是把这两种「脑回路」都塞进了同一个模型里，还开放给用户和开发者自由选择。

非思考模式下，Qwen3 系列会充分发挥快速响应的优势，更像传统语言模型的输出方式——快速直接地生成结果。而在思考模式下，模型则会进行深入地思考和推理，比如先分解问题、做一步步的逻辑推导，再得出结论。

图/雷科技

这种架构并不是第一次被提出，但 Qwen3 系列是国内首个真正落地混合推理并完全开源的模型。

在全球范围内，除了首先采用这种设计 Claude-3.7-Sonnet，也只有 Google 在 4 月中旬才推出的 Gemini 2.5 Flash 上做出了类似尝试，包括 OpenAI 尽管早早表明了「混合推理」的目标，但仍在开发中。

不仅如此，Qwen3 系列还是一个多尺寸的系列模型，覆盖包括 0.6B、1.7B、4B、8B、14B、32B，一共 6 个尺寸的稠密模型，以及 Qwen3-30B-A3B 和 Qwen3-235B-A22B 共 2 个适用于复杂任务的 MoE 混合专家模型，并且全部支持 119 种语言和方言。

Qwen3 不只是架构上「动了脑子」，性能表现也确实有料。阿里宣称，小模型如 Qwen3-4B 的性能已可媲美上一代的 Qwen2.5-72B-Instruct，同时 MoE 模型更是在基准测试上表现出了媲美顶尖闭源模型的能力。

图/阿里

尤其是参数规模达到 2350 万亿的 Qwen3-235B-A22B，在数学推理基准 AIME25 上，得分达到 81.5，刷新开源模型纪录；在代码能力测试 LiveCodeBench 中得分超过 70，超过 Grok-3；在人类偏好评估 ArenaHard 中，得分 95.6，超过 OpenAI o1 和 DeepSeek-R1。

这些进步，在一定程度上也解释了为何 Qwen3 系列一经发布就受到社区热烈欢迎。

另一方面，Qwen3 团队还强调了 Agent 能力的增强以及对 MCP 的支持，算是顺理成章，但目前还没有看出亮眼的地方。主要可能还是，AI 开发者打造 Agent 的好选择又多了一个。

不过 Qwen3 系列当然还谈不上十全十美。在实际推理表现上，Qwen3-235B-A22B 距离今天的顶级模型还有明显的差异，实测即便在满血状态下，遇到困难问题还是容易陷入「冗长而无用」的推理中，最后的结果也不理想。

比如雷科技在 OpenAI-o3 上手测试中提出的问题，o3 可以条理清晰地回答「父亲崩溃的原因」，但 Qwen3-235B-A22B 则遇到了和 DeepSeek-R1 类似的问题——思考太久且不断重复方向，甚至没有抓住「女儿是色盲」这一关键的可能性。

图/雷科技

包括在 Hacker News 上，也有网友指出 Qwen3-235B-A22B 面对复杂问题时的表现。

图/ Hacker News

不过降低一点难度，在经典过河问题上稍作改造来提问 Qwen3-235B-A22B，询问怎么把卷心菜、山羊、狼和狮子完整拉过河。尽管采用了穷举的方式，但还是找到了安全的路径，关键是对规则的理解非常到位。

当然，时间有限我们暂时只是简单地上手，但也大体能看出 Qwen3 最强版本的「成色」，如果从基准测试的分数来看，最好还是放低一下期待。但放到今天的大模型战场来看，Qwen3 系列依然称得上最强开源模型，并且混合推理的设计也给用户和开发者带来了更灵活的选择。

放大镜下的 Qwen3，阿里的一次关键补强

放在更大的时间尺度上来看，Qwen3 系列的发布，并不仅仅是一次模型升级这么简单，而是可以看作阿里在 AI 战略上的一次重要补强。

过去两年里，阿里在大模型领域的布局其实并不算慢，通义千问体系逐步完善，开源也走得比较早。但无论是在模型的全球声量，还是在开源社区的话语权上，始终未能真正站到最前排。

在 4 月爆料 Qwen3 即将发布（虽然发布时间推迟了）的报道中，虎嗅还指出，基础模型团队在阿里内部最重要的考核维度是「模型影响力」，高层希望可以在业内成功塑造「最强模型」的心智。

想复制 DeepSeek 的影响力，很难。图/ X

不过 OpenAI、DeepSeek、Google 以及 Anthropic 等公司接连发布的强力模型，阿里此前更多是追随者角色，很难形成技术引领的姿态。Qwen3 系列的推出，无疑是一场重要的补强，也在某种程度上缓解了这种局面。

尤其是在开源模型领域，Qwen3 覆盖了从小参数到大参数、稠密模型到混合专家模型的一整套体系，支持 119 种语言和方言，同时在 Hugging Face、GitHub 等开发者社区迅速获得了不错的反响。这不仅扩展了阿里在开源生态中的存在感，也为更多模型应用、工具链建设打下了基础。

而从商业化的角度来看，Qwen3 系列也直接回应了当前模型商业应用的两大痛点：推理成本高，以及灵活适配性不足。通过引入 MoE 架构大幅降低推理成本，同时又在推理机制上支持思考与非思考的灵活切换，Qwen3 在推理效率、推理成本之间尝试找到相对平衡的位置。

对于阿里云现有的 AI 服务体系，尤其是政企、制造、金融等行业客户来说，更低的部署门槛和更高的适配灵活性，无疑可以增强阿里在大模型商业化竞争中的筹码。更重要的是，大模型能力注定是未来 AI 云竞争的「胜负手」。

图/阿里

但如果回到更理性的位置来看，Qwen3 系列仍然存在着一些明显的不足。正如前文所述，它目前仍然是一个纯文本语言模型，多模态乃至 QvQ-Max 上的视觉推理能力都尚未同步整合进来。简言之，真比最强的模型能力，Qwen3 还有不少需要改进和补足的空间。

另一方面，尽管 Qwen3 系列在推理机制上实现了创新，但在真正复杂推理问题中的稳定性和鲁棒性，相比 OpenAI、Anthropic 等顶级闭源模型，依然有不小差距。

尤其在需要长链条逻辑推理、多轮严密推导的任务上，Qwen3 的「思考」模式表现出一定的不稳定性，偶尔出现的推理偏移、冗长不聚焦的问题，也说明了目前的混合推理设计还有打磨的余地。

总而言之，在这个大模型竞争白热化的 4 月，Qwen3 的推出确实为阿里带来了一次必要且及时的升级。它不仅在性能上与顶尖模型缩小了差距，也在推理机制上探索了新的可能性，同时还有潜力帮助阿里在 AI 的商业化方向补上短板。

可见的是，大模型的竞争还会继续加剧，性能和成本依旧会是两条重要「主线」，阿里能否继续保持节奏，甚至在可以预见的「智能体爆发」中占据主动，仍然需要更多技术演进和产品落地来检验。

不过至少在今天，Qwen3 确实让阿里不容忽视。

本文分类：实时讯息
本文标签：模型阿里系列开源开发者性能能力模式
浏览次数：0 次浏览
发布日期：2025-04-29 21:19:00
本文链接：https://m.ylbk.net/news/eBm68AOGXD.html

栏目导航

碾压DeepSeek！阿里Qwen3到底成色几何？

跑分追上顶级闭源模型，阿里 Qwen3 成色几何？

放大镜下的 Qwen3，阿里的一次关键补强

不要相信晚上11点半后的大脑！网友：已经开始后悔了……

靳玉志：加速推进L3/L4技术进程，实现产业快速赶超

广告费激增2768万元，金种子酒业绩仍未见起色！上半年低端酒收入降超三成

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

服务器OS迎来智能化升级时代，AI如何“for system”？丨ToB产业观察

康佳易AI电视D7J系列新品太懂咱爸妈！选它准没错

RAZER发布黑寡妇蜘蛛 V4 矮轴超薄游戏键盘系列

外卖奶茶包装革命：灵科超声波破解行业痛点，助力绿色商战

阿里前高管创业：曾获雷军2693万美元投资，海拍客为何带着20亿负债冲港股？

以色列国防军宣布一系列高级军官任命