首页 文章管理 家电百科 实时讯息 常识
您的位置: 首页 > 实时讯息 >

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

0次浏览     发布时间:2025-08-20 10:06:00    

几天前,OpenAI发布会上,奥特曼宣布GPT-5登顶了,号称代码能力全球第一。

但发布会上搞了一个大乌龙,52.8>69.1=30.8?

于是,OpenAI那些年薪上亿的天才们做的一张表格火遍了全世界(左边)。

虽然这张表格一开始在OpenAI的官博中是准确的,但是当面向全世界直播竟然搞了这么大一个Bug。

抛开乌龙外,更重要的但是被人们忽视的一个事情是,GPT-5在SWE-bench Verified基准上取得的74.9%的通过率。

这个分数略高于Anthropic的Claude Opus 4.1的74.5%

这一下子,就让GPT-5成为当前软件工程任务基准上的领先模型。

但等等,这分数…好像有点猫腻啊。

OpenAI并未运行SWE-bench Verified的全部500道测试任务,而是略去了其中无法运行的23个任务,仅基于477个任务计算得分

SemiAnalysis专门发帖提到这个问题。

Anthropic专门在它的博客里也「内涵」了这个问题。

SWE-bench Verified总共500道题,GPT-5只做了477道,那23道题,它直接跳过了!

而对手Claude呢?老老实实,500道题一道没落。

这下,性质全变了。

当然OpenAI是承认这件事情的。

他们从GPT-4.1开始就在「备注」里说明了:OpenAI的基础设施无法运行这23道题目。(好奇啊,什么样的题目,OpenAI的天才们竟然说无法运行)

如果将这23道无法运行的题目按0分计入,GPT-4.1的得分将从54.6%降至52.1%

由此推测,GPT-5的74.9%,若也将那23道题视作全错,其实际全500题通过率约为71.4%74.9%×477/500,注意这是极度简化的计算)明显低于Claude Opus 4.1基于500道题取得的74.5%

需要强调的是,那23个被略去的任务并非对GPT-5「无关紧要」。

相反,它们大多是Verified集中最困难的一批问题

据第三方分析,在Verified数据集的「耗时>4小时」级别的任务中,绝大多数模型都无法解决任何一道。

模型在需要超过1小时才能完成的「较难」问题上表现显著下降。

只有ClaudeSonnet4(非思考模式)、o3和GPT4.1能够完成部分超过4小时的任务(各占33%)。

这些极端困难任务对模型的综合能力是严峻考验。

如果GPT-5无法运行这些任务,那么从全面能力上说,它可能尚未真正超越Claude 4.1。

在Anthropic提供的信息中,Claude 4.1很可能也尝试了这些任务(Anthropic并未声称其模型跳过任何Verified任务),因此其74.5%分数包含了所有难题的考验。

而GPT-5的74.9%则是在剔除了这些「拦路虎」后的结果。

这种差异引发的主要争议点在于:评测分数的可比性和报告方法的透明性。

甚至,就连作为裁判的SWE-bench Verified数据集,也是OpenAI自己搞的。

SemiAnalysis认为,要想「公平」的对比模型之间的成绩,或许swebench.com上的SWE-bench官方排行榜可能是对当前模型在此基准测试中表现的最清晰描述。

没有「验证」子集,工具使用受限(仅限bash),大部分脚手架内容是开放可见的。

在此前提下的基准测试中,5月14日的Claude 4 Opus检查点(67.6)表现是要优于GPT-5(65)的。

接下来的问题就是,什么是SWE-bench,什么又是「验证」子集,为啥要额外搞一个SWE-bench Verified?

SWE-bench:AI界的「程序员高考」

SWE-bench你可以把它想象成AI界的「程序员高考」。

考的,全是真实世界的代码难题。

想拿高分?不仅要修复bug。还不能引入新bug,这标准简直不要太严格。

曾几何时,AI们分数也就二三十分,惨不忍睹。

比如截至2024年8月5日,根据SWE-bench的排行榜,编码智能体在SWE-bench上最高得分20%。

在SWE-bench Lite上得分能稍微好点,达到43%。

但是现在的AI厉害了,基本上前十的模型都能超过50分。

OpenAI觉得SWE-bench太难了,一些任务甚至压根没法解决,从而没法很好的评估模型的能力。

简单介绍下SWE-bench

SWE-bench测试集中的每个样本均来自GitHub上12个开源Python存储库中的已解决GitHub问题。

每个样本都有一个相关的拉取请求(PR),其中包含解决方案代码和单元测试以验证代码的正确性。

这些单元测试在PR中的解决方案代码添加之前会失败,但添加之后会通过,因此被称为FAIL_TO_PASS测试。

每个样本还具有相关的PASS_TO_PASS测试,这些测试在PR合并前后都会通过,用于检查PR是否破坏了代码库中现有且不相关的功能。

对于SWE-bench中的每个样本,智能体将获得来自GitHub issue的原始文本,即问题描述,并可以访问代码库。

据此,智能体必须编辑代码库中的文件以解决问题。测试用例不会展示给智能体。

模型提出的修改编辑通过运行FAIL_TO_PASS和PASS_TO_PASS测试进行评估。

如果FAIL_TO_PASS测试通过,表明该模型解决了问题。

如果PASS_TO_PASS测试通过,则表明该编辑没有意外破坏代码库中不相关的部分。

只有当这两组测试全部通过后,该编辑才能彻底解决原始GitHub问题。

这就是上面所说的:不仅要修复bug,还不能引入新bug。

SWE-bench Verified:一个人工选出来的子集

SWE-bench Verified是SWE-bench基准的一个人类校验子集,于2024年8月由OpenAI与SWE-bench作者合作发布。

OpenAI与93名精通Python的软件开发人员合作,手动筛选SWE-bench样本的质量。

首先,给SWE-bench测试集的1699个随机样本「打分」。

四个分数:

0:问题描述清晰,对于成功解决所需的条件也很明确。

1:关于这个问题还有一些空白需要填写,但对于成功解决方案所需的内容,存在一种合理的解读方式。

2:该问题描述含糊,存在歧义空间,尚不清楚一个成功的解决方案应具备哪些特征。

3:在没有更多信息的情况下,几乎无法理解你需要做什么。

得分为2和3分的直接抛弃不要,只留0和1分的题目。

虽然这种方法会导致样本移除的误报率较高,但有助于提高对最终数据集样本质量的信心。

然后从0和1分的题目中再随机抽取500道,这就是最终的SWE-bench Verified

说回分数,Claude考的是「全科」,OpenAI考的是「精选版」。

这成绩,怎么能直接比?数字背后的故事,更值得玩味。

在发布会图表画错的乌龙以外,这个被「掩盖」的事实似乎并没有引起太多人的注意。

甚至,我们可以阴谋论的猜测一下,OpenAI是不是故意而为之,用这个小小的乌龙,来掩盖SWE-Bench的分数?

毕竟,要想隐瞒一个真相,最好的做法不是否认它,而是用一个更大的「真相」去转移所有人的注意力。

参考资料:

https://x.com/SemiAnalysis_/status/1955028150217478177

本文来自微信公众号“新智元”,作者:新智元,编辑:定慧,36氪经授权发布。

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题

几天前,OpenAI发布会上,奥特曼宣布GPT-5登顶了,号称代码能力全球第一。但发布会上搞了一个大乌龙,52.8>69.1=30.8?于是,OpenAI那些年薪上亿的天才们做的一张表格火遍了全世界(左边)。虽然这张表格一开始在OpenAI的官博中是准确的,但是当面向全世界直播竟然搞了这么大一个Bu

2025-08-20 10:06:00

服务器OS迎来智能化升级时代,AI如何“for system”?丨ToB产业观察

AI对各行业的重构已经是不争的事实,这点也体现在了服务器操作系统之上,操作系统上承各类模型应用,下接多元算力,是支撑大模型应用稳定运行的关键。在龙蜥社区技术委员会主席杨勇看来,AI与服务器操作系统之间的影响是相互的,一方面,要实现AI for System;另一方面,要推进System for AI

2025-08-15 11:26:00

东胜超治愈湿地公园!更多玩法等你解锁→

哈喽,小伙伴们!融融又带着大家逛公园啦~今天要解锁的是——吉劳庆川湿地公园刚走进东胜这座公园就被满眼的绿意裹住了!350万平方米的绿化像一块巨大的绿毯油松、樟子松笔挺地站成“森林仪仗队”沙棘、紫穗槐在风中轻轻摇晃……走累了?抬头看看天,低头赏赏水80公顷的景观水面波光粼粼岸边的树影倒映在水里分不清是

2025-08-14 07:48:00

【健康科普】儿童诺如病毒肠炎:家长必知的健康防护指南

​诺如病毒作为一种高传染性的肠道病毒,让不少家长忧心忡忡。湖南医药学院总医院专家提醒,了解这种病毒的特性、症状和防护方法,是守护孩子健康的关键。一、病毒特性:为何孩子容易 “中招”?诺如病毒堪称肠道病毒中的“灵活派”,传播能力远超普通病毒。更棘手的是,它的基因变异速度快,每年流行的毒株可能不同,孩子

2025-08-13 21:23:00

上海瑞金医院提醒:这种防晒方法有风险,很多人在给孩子用...

炎炎夏日不少家长都会为孩子准备防晒用品其中防晒喷雾因使用便捷成为许多家庭的常备之选但需注意的是上海瑞金医院医生发文提醒儿童身体发育尚未成熟自我保护能力较弱若使用不当,不慎吸入喷雾可能引发鼻炎或诱发哮喘急性发作婴幼儿和儿童误吸后健康风险高无论成人还是儿童在使用防晒喷雾时呼吸道"误吸"在所难免那么,到底

2025-08-11 00:06:00

庆城:项目引擎驱动发展新格局

盛夏的庆城,阳光炙热,正如这里项目建设的热度。一个个重点项目在这片土地上加速推进,它们如同强劲的引擎,正驱动着庆城在高质量发展的道路上阔步前行。在玄马镇天知百草产业园的工地上,50多名建设者各司其职,抢抓工期。总投资1.5亿元的天知百草中药产业园项目已进入攻坚阶段天知百草项目施工负责人墨广恒介绍:“

2025-07-28 09:54:00

工信部部署“人工智能+制造”行动 推动AI智能体深度赋能产业核心环节

央广网北京7月13日消息(记者奕延)据中央广播电视总台经济之声《环球新财讯》报道 当前,AI智能体(AI Agent)成为人工智能领域的热词,国内外科技巨头、初创企业纷纷加快布局。国际知名信息技术研究和咨询公司Gartner将AI智能体列为2025年十大战略性技术趋势之一。“AI智能体”是什么?那么

2025-07-13 13:42:00

【天眼问法】兼职出借银行卡?日薪3000元的诱惑,一场法律危机正在逼近!

一张银行卡,日薪3000元?看似轻松的“兼职”,却将大四医学生陈欢(化名)拖入了法律与人生的双重泥潭。当短暂的“快钱”梦幻灭,留下的不仅只是400元报酬,更是一生难以磨灭的征信污点和心理阴影。他的遭遇,为所有轻信“轻松获利”陷阱的人敲响了警钟。初夏的大学校园弥漫着离别的气息,医学专业大四学生陈欢却陷

2025-07-08 00:25:00

中考化学计分错误,九江市教育中心致歉

7月2日,九江市教育考试中心发布致歉声明:九江市2025年初中学业水平考试(中考)成绩公布后,发现化学科目分数疑似异常。我们高度重视,立即组织对评卷系统中化学科目计分情况进行重新核查。结果显示,化学科目第一大题单项选择题第6-10题每小题分值应为2分,但只计1分,实际第6-10题中每答对1题还应再加

2025-07-03 15:50:00

赖清德一通通歪理邪说正将台湾推向火坑

赖清德日前进行所谓“团结十讲”第三讲,延续其前两讲假团结真谋“独”的老调,从“宪政体制”等方面鼓吹“台独”谬论。对此,国台办发言人朱凤莲6月30日批驳指出,赖清德的讲话无视岛内各界的强烈反对声浪,再次撕裂台湾社会民意,再次进行谋“独”挑衅,变本加厉破坏两岸关系。赖清德一通通的歪理邪说,正将台湾推向火

2025-07-02 06:41:00