首页 文章管理 家电百科 实时讯息 常识
您的位置: 首页 > 实时讯息 >

碾压DeepSeek!阿里Qwen3到底成色几何?

0次浏览     发布时间:2025-04-29 21:19:00    

今天(4 月 29 日)凌晨,阿里巴巴推出了 4 月压轴的一款大语言模型——Qwen3 系列。

而在这个月,Meta、字节跳动、OpenAI、Google、百度都在稍早前推出了新的大模型,OpenAI 甚至一次性拿出三款大模型,百度也在这周举行的 Create 2025 百度 AI 开发者大会上发布了两款大模型。

但在这一众新模型中,阿里还能搞出什么新意?事实上还真有,除了继续保持开源路线,Qwen3 系列作为阿里定位中的旗舰大模型,在模型性能上也有了不小的进步,再次缩小与顶尖大模型之间的能力差。

此外,Qwen3 系列还是一款混合推理模型,甚至官方博文的标题就是《Qwen3:思深,行速》。简单来说,Qwen3 支持思考模式和非思考模式,而不像 DeepSeek 深度思考下是 R1,关闭深度思考其实是 V3。

图/雷科技

关于混合推理模型,雷科技在今年 2 月就报道并介绍了首款混合推理模型,以及混合推理的优势所在,并指出:「混合推理模式」可能会成为大模型发展的下一个标准配置。

而回到阿里刚刚发布的 Qwen3 系列,作为国内首个混合推理模型,也是首个混合推理开源模型,再加上模型性能方面的进步,也难怪 Qwen3 推出仅仅四个小时后,就在全球最大开发者社区 Github 拿到了 1.7 万个 Star。

问题在于,在模型跑分越来越受争议的今天,Qwen3 系列实际上真能兑现跑分体现出的能力,以及混合推理模型的优势吗?

跑分追上顶级闭源模型,阿里 Qwen3 成色几何?

毫无疑问,Qwen3 系列最大的亮点之一就是通过引入混合推理设计,实现了同一模型的「思考模式」与「非思考模式」,阿里这次是把这两种「脑回路」都塞进了同一个模型里,还开放给用户和开发者自由选择。

非思考模式下,Qwen3 系列会充分发挥快速响应的优势,更像传统语言模型的输出方式——快速直接地生成结果。而在思考模式下,模型则会进行深入地思考和推理,比如先分解问题、做一步步的逻辑推导,再得出结论。

图/雷科技

这种架构并不是第一次被提出,但 Qwen3 系列是国内首个真正落地混合推理并完全开源的模型。

在全球范围内,除了首先采用这种设计 Claude-3.7-Sonnet,也只有 Google 在 4 月中旬才推出的 Gemini 2.5 Flash 上做出了类似尝试,包括 OpenAI 尽管早早表明了「混合推理」的目标,但仍在开发中。

不仅如此,Qwen3 系列还是一个多尺寸的系列模型,覆盖包括 0.6B、1.7B、4B、8B、14B、32B,一共 6 个尺寸的稠密模型,以及 Qwen3-30B-A3B 和 Qwen3-235B-A22B 共 2 个适用于复杂任务的 MoE 混合专家模型,并且全部支持 119 种语言和方言。

Qwen3 不只是架构上「动了脑子」,性能表现也确实有料。阿里宣称,小模型如 Qwen3-4B 的性能已可媲美上一代的 Qwen2.5-72B-Instruct,同时 MoE 模型更是在基准测试上表现出了媲美顶尖闭源模型的能力。

图/阿里

尤其是参数规模达到 2350 万亿的 Qwen3-235B-A22B,在数学推理基准 AIME25 上,得分达到 81.5,刷新开源模型纪录;在代码能力测试 LiveCodeBench 中得分超过 70,超过 Grok-3;在人类偏好评估 ArenaHard 中,得分 95.6,超过 OpenAI o1 和 DeepSeek-R1。

这些进步,在一定程度上也解释了为何 Qwen3 系列一经发布就受到社区热烈欢迎。

另一方面,Qwen3 团队还强调了 Agent 能力的增强以及对 MCP 的支持,算是顺理成章,但目前还没有看出亮眼的地方。主要可能还是,AI 开发者打造 Agent 的好选择又多了一个。

不过 Qwen3 系列当然还谈不上十全十美。在实际推理表现上,Qwen3-235B-A22B 距离今天的顶级模型还有明显的差异,实测即便在满血状态下,遇到困难问题还是容易陷入「冗长而无用」的推理中,最后的结果也不理想。

比如雷科技在 OpenAI-o3 上手测试中提出的问题,o3 可以条理清晰地回答「父亲崩溃的原因」,但 Qwen3-235B-A22B 则遇到了和 DeepSeek-R1 类似的问题——思考太久且不断重复方向,甚至没有抓住「女儿是色盲」这一关键的可能性。

图/雷科技

包括在 Hacker News 上,也有网友指出 Qwen3-235B-A22B 面对复杂问题时的表现。

图/ Hacker News

不过降低一点难度,在经典过河问题上稍作改造来提问 Qwen3-235B-A22B,询问怎么把卷心菜、山羊、狼和狮子完整拉过河。尽管采用了穷举的方式,但还是找到了安全的路径,关键是对规则的理解非常到位。

当然,时间有限我们暂时只是简单地上手,但也大体能看出 Qwen3 最强版本的「成色」,如果从基准测试的分数来看,最好还是放低一下期待。但放到今天的大模型战场来看,Qwen3 系列依然称得上最强开源模型,并且混合推理的设计也给用户和开发者带来了更灵活的选择。

放大镜下的 Qwen3,阿里的一次关键补强

放在更大的时间尺度上来看,Qwen3 系列的发布,并不仅仅是一次模型升级这么简单,而是可以看作阿里在 AI 战略上的一次重要补强。

过去两年里,阿里在大模型领域的布局其实并不算慢,通义千问体系逐步完善,开源也走得比较早。但无论是在模型的全球声量,还是在开源社区的话语权上,始终未能真正站到最前排。

在 4 月爆料 Qwen3 即将发布(虽然发布时间推迟了)的报道中,虎嗅还指出,基础模型团队在阿里内部最重要的考核维度是「模型影响力」,高层希望可以在业内成功塑造「最强模型」的心智。

想复制 DeepSeek 的影响力,很难。图/ X

不过 OpenAI、DeepSeek、Google 以及 Anthropic 等公司接连发布的强力模型,阿里此前更多是追随者角色,很难形成技术引领的姿态。Qwen3 系列的推出,无疑是一场重要的补强,也在某种程度上缓解了这种局面。

尤其是在开源模型领域,Qwen3 覆盖了从小参数到大参数、稠密模型到混合专家模型的一整套体系,支持 119 种语言和方言,同时在 Hugging Face、GitHub 等开发者社区迅速获得了不错的反响。这不仅扩展了阿里在开源生态中的存在感,也为更多模型应用、工具链建设打下了基础。

而从商业化的角度来看,Qwen3 系列也直接回应了当前模型商业应用的两大痛点:推理成本高,以及灵活适配性不足。通过引入 MoE 架构大幅降低推理成本,同时又在推理机制上支持思考与非思考的灵活切换,Qwen3 在推理效率、推理成本之间尝试找到相对平衡的位置。

对于阿里云现有的 AI 服务体系,尤其是政企、制造、金融等行业客户来说,更低的部署门槛和更高的适配灵活性,无疑可以增强阿里在大模型商业化竞争中的筹码。更重要的是,大模型能力注定是未来 AI 云竞争的「胜负手」。

图/阿里

但如果回到更理性的位置来看,Qwen3 系列仍然存在着一些明显的不足。正如前文所述,它目前仍然是一个纯文本语言模型,多模态乃至 QvQ-Max 上的视觉推理能力都尚未同步整合进来。简言之,真比最强的模型能力,Qwen3 还有不少需要改进和补足的空间。

另一方面,尽管 Qwen3 系列在推理机制上实现了创新,但在真正复杂推理问题中的稳定性和鲁棒性,相比 OpenAI、Anthropic 等顶级闭源模型,依然有不小差距。

尤其在需要长链条逻辑推理、多轮严密推导的任务上,Qwen3 的「思考」模式表现出一定的不稳定性,偶尔出现的推理偏移、冗长不聚焦的问题,也说明了目前的混合推理设计还有打磨的余地。

总而言之,在这个大模型竞争白热化的 4 月,Qwen3 的推出确实为阿里带来了一次必要且及时的升级。它不仅在性能上与顶尖模型缩小了差距,也在推理机制上探索了新的可能性,同时还有潜力帮助阿里在 AI 的商业化方向补上短板。

可见的是,大模型的竞争还会继续加剧,性能和成本依旧会是两条重要「主线」,阿里能否继续保持节奏,甚至在可以预见的「智能体爆发」中占据主动,仍然需要更多技术演进和产品落地来检验。

不过至少在今天,Qwen3 确实让阿里不容忽视。

不要相信晚上11点半后的大脑!网友:已经开始后悔了……

近日,话题“不要相信晚上十一点半后的大脑”冲上热搜,引发网友热议。有网友表示,一到晚上就做出莫名其妙的决定,还容易买些没有必要的东西,也会莫名emo,给别人发消息,“最不理解这时候的自己”。冲动消费、自我怀疑、情绪低落……总之,一到晚上钱包和感情总得伤一个其实,这些“深夜操作”心理学上叫做“深夜效应

2025-08-31 20:53:00

靳玉志:加速推进L3/L4技术进程,实现产业快速赶超

8月22日,华为乾崑智驾ADS 4 Beta版公开道路首测。从4月22日正式发布,到8月22日正式实测,仅用时4个月,“乾崑速度”背后所彰显的,正是华为乾崑在辅助驾驶领域恐怖的技术执行力和体系化落地能力。正如华为智能汽车解决方案BU CEO靳玉志所说:“中国汽车电动化渗透率达到50%,用了10年,而

2025-08-31 00:04:00

广告费激增2768万元,金种子酒业绩仍未见起色!上半年低端酒收入降超三成

8月27日晚间,安徽金种子酒业股份有限公司(证券简称:金种子酒,沪市代码: 600199)发布2025年半年报。数据显示,该公司报告期内营业收入约4.84亿元,同比减少27.47%;归属于上市公司股东的净利润为-7219.68万元,同比暴跌750.54%。在此之前,金种子酒在2021年至2024年已

2025-08-28 13:43:00

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

几天前,OpenAI发布会上,奥特曼宣布GPT-5登顶了,号称代码能力全球第一。但发布会上搞了一个大乌龙,52.8>69.1=30.8?于是,OpenAI那些年薪上亿的天才们做的一张表格火遍了全世界(左边)。虽然这张表格一开始在OpenAI的官博中是准确的,但是当面向全世界直播竟然搞了这么大一个Bu

2025-08-20 10:06:00

服务器OS迎来智能化升级时代,AI如何“for system”?丨ToB产业观察

AI对各行业的重构已经是不争的事实,这点也体现在了服务器操作系统之上,操作系统上承各类模型应用,下接多元算力,是支撑大模型应用稳定运行的关键。在龙蜥社区技术委员会主席杨勇看来,AI与服务器操作系统之间的影响是相互的,一方面,要实现AI for System;另一方面,要推进System for AI

2025-08-15 11:26:00

康佳易AI电视D7J系列新品太懂咱爸妈!选它准没错

咱爸妈用智能电视,是不是总犯愁?按键次数又多、操作还复杂,想看看剧都得琢磨半天。但康佳易AI电视D7J系列是真懂老人心,靠自研的百晓大模型的易AI系统、惊鸿AI画质芯片,再加上云 - 端互联的云管家这三大硬核科技,把父母最头疼的“电视不好用”“看久了眼睛酸涩”“与子女联系难”这些问题全解决了,就像家

2025-08-15 10:04:00

RAZER发布黑寡妇蜘蛛 V4 矮轴超薄游戏键盘系列

加州尔湾 —— Razer(雷蛇),全球领先的玩家生活方式潮流品牌(以下简称“雷蛇”)发布了雷蛇黑寡妇蜘蛛 V4 矮轴极速版 ( Razer BlackWidow V4 Low-profile HyperSpeed ) 和雷蛇黑寡妇蜘蛛 V4 矮轴竞技极速版 (Razer BlackWidow V4

2025-08-15 10:04:00

外卖奶茶包装革命:灵科超声波破解行业痛点,助力绿色商战

今夏,随着外卖平台“0元购奶茶”补贴大战的持续升温,奶茶行业迎来爆发式增长。消费者在享受“薅羊毛”狂欢的同时,奶茶产业链却面临订单激增带来的重重压力。尤其是高温酷暑环境下,外卖保温袋的性能短板——如保温时效短、易破损渗漏等,成为影响产品体验与消费者满意度的痛点。供应链企业在产能、品控与环保的夹缝中,

2025-08-13 12:04:00

阿里前高管创业:曾获雷军2693万美元投资,海拍客为何带着20亿负债冲港股?

出品 | 子弹财经 左星月出身阿里系的赵晨,开始带着自己的公司冲刺资本市场了。近日,专注于家庭护理及营养产品领域的交易服务平台Yangtuo Technology Inc.(以下简称“海拍客”)在港交所递交了招股说明书,申报在港股上市。这家公司曾获得雷军旗下顺为资本的5轮注资,总额达2693万美元。

2025-07-28 12:16:00

以色列国防军宣布一系列高级军官任命

【以色列国防军宣布一系列高级军官任命】财联社7月16日电,据央视新闻报道,以色列国防军总参谋长扎米尔宣布了一系列有关以军总参谋部调整和高级军官任命的决定。以军称,相关调整和变动属于军官任期结束后的常规人事调整,涉及多个关键指挥岗位,包括以军北方指挥部、纵深总部以及规划与部队设计总局等。所有任命均已获

2025-07-16 03:22:00