
出品 | 网易智能
作家 | 小小
裁剪 | 王凤枝
GPT-5.5来了,大模子越来越像智能体了。
今天凌晨OpenAI无意发布GPT-5.5。最中枢的变化不是谜底写得更漂亮,而是它更像一个能我方接活的系统:一语气复杂筹画,我方拆设施、调器用、核收尾,把一件多要道的任务从新推到尾。OpenAI此次想卖的,不单是更贤慧,而是真颖悟活。

才能上去了,价钱也随着上去了。官方API订价GPT-5.5输入每百万token 5好意思元、输出30好意思元,对比GPT-5.4的2.5好意思元和15好意思元正巧翻了一倍。不外OpenAI也说了,GPT-5.5在不少复杂任务里能用更少的token把事情办完。
现在GPT-5.5如故启动向ChatGPT和Codex滚动上线。ChatGPT里GPT-5.5 Thinking面向Plus、Pro、Business和Enterprise用户,GPT-5.5 Pro面向Pro、Business和Enterprise用户。API版块官方说很快跟上。
01一份让敌手千里默的跑分单:末端操作和数学推理甩开身位
先看数据。GPT-5.5在一系列硬核基准测试中,把上一代GPT-5.4甩在了死后,也压过了竞争敌手一头。

在最能体现智能体经营和器用和解才能的Terminal-Bench 2.0测试中,GPT-5.5达到了82.7%的准确率,大幅最初Claude Opus 4.7的69.4%和Gemini 3.1 Pro的68.5%。
在评估跨44种行状学问使命才能的GDPval测试中,GPT-5.5获得了84.9%的胜率或平局率,Claude Opus 4.7为80.3%,Gemini 3.1 Pro只消67.3%。在揣度模子自主操作真实狡计机环境的OSWorld-Verified上,GPT-5.5得分78.7%,与Claude Opus 4.7的78%旗饱读绝顶。
数学才能方面GPT-5.5在FrontierMath上的发达尤其杰出。1至3级题目得分51.7%,Claude Opus 4.7为43.8%,Gemini 3.1 Pro为36.9%。到了最难的4级,GPT-5.5的35.4%远远卓绝Claude Opus 4.7的22.9%。
采集安全方面,CyberGym测试中GPT-5.5得分81.8%,Claude Opus 4.7为73.1%。在客户处事场景的Tau2-bench Telecom测试中,GPT-5.5无需任何教唆赈济就达到了98.0%的准确率。
OpenAI里面还有一个叫Expert-SWE的基准,用来评估长周期编码任务并预估东说念主类人人中位完成期间为20小时。GPT-5.5在这里达到了73.1%,上一代GPT-5.4是68.5%。在公开的SWE-bench Pro上,GPT-5.5的58.6%则与Claude Opus 4.7的64.3%互有输赢。
第三方评测机构Artificial Analysis作念了全面测试。他们的论断是GPT-5.5让OpenAI再行回到了AI畛域的竣工第一,在他们设定的智能指数中最初3分,摧毁了此前与Anthropic和谷歌三方平局的步地。五大中枢评估中,GPT-5.5在Terminal-Bench Hard、GDPval-AA和APEX-Agents-AA中均居榜首。

科学研讨畛域雷同没落下。在专注于遗传学和定量生物学的GeneBench上GPT-5.5得分约25%,GPT-5.4约为19%。在生物信息学基准BixBench上,GPT-5.5以80.5%最初于GPT-5.4的74.0%。
这些数字拼在一皆,画出了一个轮廓,即GPT-5.5在需要经营和执续实施的智能体任务上上风彰着,在数学和采集安全等需要深度推理的畛域也拉开了距离,但在一些无器用的纯学术推理上仍有来有回。OpenAI研讨副总裁阿米莉亚·格莱斯(Amelia Glaese)说,无论是在基准测试上,照旧把柄确切合作伙伴的反馈以及他们我方的教训来看,这竣工是他们迄今为止最强的编码模子。
但有一组数据不得不提前摊开。
在Artificial Analysis的特等基准测试AA-Omniscience中,GPT-5.5展现了一个矛盾到让东说念主不安的特征。
GPT-5.5的准确率是统统模子中最高的,达到57%,意味着它在回忆事实方面如实优于统统竞品。但是它的幻觉率高达86%。当作对比,Claude Opus 4.7的幻觉率是36%,Gemini 3.1 Pro是50%。换句话说,GPT-5.5知说念的东西如实更多,但当它概略情谜底时,它采取闭嘴的概率远低于敌手。它更倾向于给出一个回应,哪怕这个回应可能是错的。
这组数据与它昭着该作念什么的中枢叙事造成了径直的张力。一个幻觉率86%的模子,意味着它在十次概略情的情况下有快要九次会采取硬答而不是承认我方不知说念。这种自信地作念错事的倾向,恰正是一个被矜重于自主经营和实施任务的模子最需要警惕的特色。这意味着,GPT-5.5如实比前辈更会干活了,但它在干活过程中不知说念我方不知说念什么的概率,也比几个主要竞争敌手高出一大截。
这不是一个不错跟跟蜻蜓点水带过的小症结。若是这个模子竟然被委以颓败操作电脑、分析数据、生成评释的职责,那么用它的东说念主最好时刻记着,它干活的主动性和它犯错的主动性可能来自团结种底层机制。Artificial Analysis的测试标明,从GPT-5.4到GPT-5.5在这项基准上的14分涨幅主要由学问增长驱动,幻觉方面仅有限定改造。这意味着在现在的架构下,更强的才能和更高的幻觉率可能是团结枚硬币的两面。
02更贤慧,也更省token,雷同的活儿少花四成词元
比分数更值得留意的,是GPT-5.5达成这些分数的方式。它用的输出token数目大幅减少。浅薄说即是它找到谜底的旅途更短了。
在Terminal-Bench 2.0测试中,GPT-5.5在约3000至4000输出token时候数就达到了约82%,GPT-5.4在周边token数时只消约75%。
在Expert-SWE测试中差距更夸张,GPT-5.5用了约30000至35000输出token就达到约73%的分数,GPT-5.4花了卓绝60000 token才达到68.5%。在Tau2-bench Telecom中,GPT-5.5用约2000至4000 token达到98%的准确率,GPT-5.4用了卓绝10000 token才达到约92%。
这种token效爽径直影响了老本。Artificial Analysis的狡计骄矜,天然GPT-5.5每个token的价钱比GPT-5.4翻了一倍,涨到每100万输入5好意思元且输出30好意思元,但token使用量减少约40%简直完全领受了加价的影响,运行其智能指数的净老本仅加多了约20%。在他们的编码智能指数图里GPT-5.5位于右上方,以相对较少的输出token实现了最高的智能分数,在老本和性能之间获得了现时的最好平衡。
需要证明的是,这个40%的简陋幅度是在编码和推理类基准任务上测得的。若是使用场景不同,比如长篇写稿或绽放式对话,token浮滥的减少幅度有时疏通,骨子老本增幅也会随之变化。不外在本文援用的几项具体测试中,从Terminal-Bench到Expert-SWE再到Tau2-bench,token数目的下落是肉眼可见的。

他们还发现GPT-5.5的不同推理勤快进程提供了活泼的采取。中等勤快进程的GPT-5.5在智能指数上得分与Claude Opus 4.7的最高级位绝顶,但老本仅为其四分之一,约1200好意思元对4800好意思元。低勤快进程则破耗约500好意思元就能达到雷同效果。这给了用户一个把柄任务需求弯曲智能与老本的路子。
而这一切并莫得以捐躯速率为代价。按OpenAI的说法,GPT-5.5在骨子处事中实现了与GPT-5.4绝顶的每token蔓延。背后是软硬件协同瞎想的后果。GPT-5.5与英伟达GB200和GB300 NVL72系整个同瞎想、老师并部署。AI我方也帮了忙,Codex分析了数周的分娩流量模式后,编写了自界说的启发式算法来优化GPU之间的负载平衡,最终将token生成速率造就了卓绝20%。
英伟达企业AI副总裁贾斯汀·博伊塔诺(Justin Boitano)评价说,GPT-5.5提供了实施重荷使命所需的执续性能。基于英伟达GB200 NVL72系统构建和处事的这个模子,让团队概况从天然谈话教唆中委派端到端的功能,将调试期间从数天裁减到数小时,并将数周的施行弯曲为在复杂代码库中的整夜进展。他认为这不单是是更快的编码,而是一种全新的使命方式。

03能读懂统统这个词代码库,不是只会补全下一滑
数据和服从说完毕,来望望骨子体验上到底有什么不同。
GPT-5.5与此前模子最中枢的分别,在于它不再只是等着你一步步告诉它若何作念。用OpenAI总裁格雷格·布罗克曼(Greg Brockman)的话说,这个模子真实绝顶的方位,在于它能在更少的招引下作念更多的事,亚博体彩下载不错注视一个不解确的问题,并我方弄明晰下一步该作念什么。

这与早期测试者的感受高度一致。Every公司的创举东说念主兼CEO丹·希珀(Dan Shipper)作念了一个倒回期间的测试。
他花了几天期间调试一个发布后的问题,然后让他最好的工程师之一重写了部分系统。为了测试GPT-5.5,他把如故损坏的系统气象交给模子看它能不行产出工程师最终决定的那种重写决策。收尾GPT-5.4作念不到,GPT-5.5作念到了。他的评价是这是他碰到的第一个具有严肃观点走漏度的编码模子。

MagicPath的CEO彼得罗·斯基拉诺(Pietro Schirano)碰到了更复杂的场景。他让GPT-5.5把一个包含数百个前端和重构转换的分支合并到另一个也发生了巨大变化的主分支之中。模子在大要20分钟内一次性解决了统统冲突,最终完成了一个包含12个各别的堆栈简直齐全。他说我方的嗅觉是竟然在与一个更高的智能一皆使命,以致有一种尊重感。
其他提前拿到测试权限的高级工程师也评释了雷同体验。他们说GPT-5.5在推理和自主性方面彰着强于GPT-5.4和Claude Opus 4.7,能提前发现问题,并在莫得明确教唆的情况下瞻望测试和审查需求。有东说念主让模子再行架构一个伙同式裁剪器中的批驳系统,离开一段期间后归来发现它如故惩办了一个接近齐全的堆栈。还有东说念主说简直不需要对实现进行修正,对GPT-5.5的筹画比GPT-5.4更有信心。
Cursor的结合创举东说念主兼CEO迈克尔·特鲁尔(Michael Truell)从家具角度指出,GPT-5.5彰着比GPT-5.4更贤慧且更执久,能执续使命更永劫间而不会提前罢手,这对于用户寄托给Cursor的复杂或恒久运行的任务至关进犯。而一位英伟达的工程师在提前失去看望权限后说那嗅觉像被截肢了一样。

这些反馈共同指向一个变化,即GPT-5.5不再是恭候指示的被迫器用,而是启动展现某种行状判断力。它能一语气系统的全貌并弄明晰某件事为什么失败,诞生该落在那儿以及代码库中还有哪些部分会受到影响。公司里面测试也印证了这小数,OpenAI卓绝85%的职工每周都在使用Codex。
不外并非统统测试者都给出了毫无保留的传颂。一位测试者在应酬平台上示意,GPT-5.5在推理服从和学问方面如实有彰着造就,但对于他格式的东西他得等下一个版块。他直言不认为GPT-5.5比之前有太多朝上而只是渐进式的改造。

另一位测试者则留意到了速率上的变化。GPT-5.5重度想考模式下2分钟内给出的谜底,比GPT-5.4在10分钟内给出的更好,但他对智能水平的评价保执了克制。
04办公室里的杂活儿,它也启动接得动了
让GPT-5.5擅长编程的那些才能,放到日常学问使命中雷同管用。它能更天然地完成从查找信息、分析要点、操作软件到生成文档的统统这个词闭环。
Box的结合创举东说念主兼CEO阿隆·列维(Aaron Levie)共享了他们的里面测试收尾。在金融处事、医疗保健、大众部门和媒体文娱等多个行业的真实任务上,GPT-5.5比拟GPT-5.4有权臣造就。金融处事从64%造就至83%,医疗保健从61%造就至78%,大众部门从59%造就至72%,媒体与文娱从57%造就至70%。他认为GPT-5.5将为企业学问使命智能体带来巨大飞跃。

在ChatGPT中,GPT-5.5想考模式不错为更难的问题提供更快的匡助,擅长编码、研讨、信息概述与分析以及文档密集型任务。GPT-5.5 Pro版块则更进一步,早期测试者反应它的回应比GPT-5.4 Pro更全面且结构更走漏以及更准确和更有效,在买卖、法律、造就和数据科学畛域发达尤为杰出。
OpenAI里面的日常使用案例更能证明问题。财务团队用Codex审查了24771份K-1税表,揣度71637页。使命经过放弃了个东说念主信息后,匡助团队比前一年提前两周完成任务。通讯团队用它分析了六个月的演讲请求数据,构建了评分和风险框架并考证了一个自动化Slack智能体来处理低风险请求。别称市集营销职工自动化了每周业务评释的生成,每周省下5到10小时。
05科学家的新搭档,从基因数据到数学解说都能搭把手
科学研讨畛域是GPT-5.5的另一个亮点。它的价值不在于给出一个一次性谜底,而在于帮研讨东说念主员走完从问题到施行再到产出的齐全过程。
沃顿商学院造就伊森·莫利克(Ethan Mollick)提前拿到了模子,他用一个拖延了十年的真实研讨技俩来作念终极测试。他把数百个尘封已久的对于众筹的匿名化数据文献丢给Codex里的GPT-5.5,文献搀和了STATA、CSV、XLS和Word神态,然后只给了四个教唆条目它整理数据、提议新假定、用复杂方法考研并写成学术论文。收尾模子产出的论文包含真实的文献综述和复杂的统计分析。他的评价是若是这是二年岁博士技俩的后果他会特地悠然。

杰克逊基因组医学施行室的免疫学造就德里亚·乌鲁特马兹(Derya Unutmaz)使用GPT-5.5 Pro分析了一个包含62个样本和近28000个基因的抒发数据集。模子在几分钟内生成了详备的研讨评释,并提议了枢纽问题和见地。他说这项使命原本需要他的团队花上数月。他还说,凭借GPT-5.5 Pro,他嗅觉AI到了另一个拐点,就像之前某些枢纽版块发布时让他感受到的那种跨越门槛的嗅觉。
在数学畛域,一个更硬的后果来自组合学。一个里面版块的GPT-5.5在配备定制器用后,匡助发现了对于拉姆皆数的新解说,拉姆皆数是组合学中的中枢对象。这一畛域的收尾很稀有且技巧难度高。GPT-5.5找到了一个对于非对角拉姆皆数恒久存在的渐近事实的论证,随后在Lean中得到了考证。这意味着它不仅在提拔研讨,而是在中枢研讨问题上孝顺了令东说念主惊诧且有效的数学论证。
波兰亚当·密茨凯维奇大学的数学助理造就巴托斯·纳斯克雷基(Bartosz Naskręcki)在Codex中使用GPT-5.5,仅用一个教唆在11分钟内构建了一个代数几何应用,完成了昔时需要专用器用才能实现的定制数学可视化。
Axiom Bio的结合创举东说念主兼CEO布兰登·怀特(Brandon White)则从药物发现的角度给出了判断。他让GPT-5.5推理庞杂的生厌世学数据集以瞻望东说念主类药物收尾,然后看到它在最难的评估中带来了权臣的准确性造就。他的判断是,若是OpenAI不时保执这么的势头,药物发现的基础将在年底前发生变嫌。

06攻防才能一皆涨,这把芒刃也有另一面
GPT-5.5的采集安全才能比GPT-5.4又进了一步,OpenAI将其生物和采集安全才能评估为高风险。在夺旗挑战任务中,GPT-5.5用约20000至40000输出token就达到了约88%的得分,GPT-5.4用了卓绝100000 token才拿到约84%。这种服从造就意味着它发现和哄骗缝隙的才能变得更强。
OpenAI给与了一种分层应酬战略。一方面部署更严格的采集风险分类器来收敛泛泛用户的明锐请求,他们承认一些用户初期可能会以为这些驾驭烦东说念主。另一方面推出采集确切看望筹画,让经过考证的安全退步者概况请求使用不受驾驭的模子版块用于保护枢纽基础设施。OpenAI示意他们正与政府合作伙伴一皆探索高级AI若何匡助保卫征税东说念主数据、电网和给水系统。
GPT-5.5在发布前阅历了齐全的安全和管理经过,包括准备评估、特定畛域测试,以及与里面和外部红队、近200个确切早期合作伙伴的合作。奥特曼强调他们笃信迭代部署是安全战略的进犯构成部分,通过缓缓向寰宇发布模子人人最有才能在AI韧性的团队通顺中共同应酬挑战。
VentureBeat的报说念指出,在东说念主类终末的考试这类无器用纯推理基准上,GPT-5.5 Pro的43.1%仍落伍于Anthropic未公开的Claude Mythos Preview的56.8%。这证明在不同的才能维度上,各家模子的上风仍在分化。
07八个月加价八倍,但总账单简直没变
安全才能的造就也意味着更高的老师和部署老本,这径直反应在了GPT-5.5的订价上。
GPT-5.5的API输入价钱为每100万token 5好意思元且输出为30好意思元,GPT-5.5 Pro则是输入30好意思元且输出180好意思元。现在GPT-5.5已向ChatGPT的Plus、Pro、Business和Enterprise用户绽放,GPT-5.5 Pro从Pro层级起步。在Codex中GPT-5.5对从Plus到Go筹画的用户均可使用,高下文窗口40万token并提供速率快1.5倍但老本高2.5倍的快速模式。
AI家具人人阿卡什·古普塔(Aakash Gupta)分析了这个订价轨迹。从昨年8月GPT-5的0.63好意思元到本年3月GPT-5.4的2.50好意思元,再到七周后GPT-5.5的5好意思元,八个月内输入订价涨了八倍。而英伟达示意其最新芯片将推理老本数落了高达每token 35倍。

古普塔认为,OpenAI的老本基础在急剧下落,但价钱却在攀升,这里发生的利润率彭胀在企业软件史向前所未有。
布罗克曼此前曾说正在构建一个整合ChatGPT、Codex和浏览器的超等应用。古普塔的判断是,每个在GPT-5.5上构建智能体的开导者,都在为OpenAI我方的竞争家具提供资金。他认为OpenAI找到的买卖模式,很像阿谁让微软市值达到3万亿好意思元的模式。
结语:才能狼藉不皆,但前沿还在快速股东
莫利克造就还瞎想了一个横向对比测试。他让从一年前发布的o3到最新的GPT-5.5 Pro等多个模子去构建团结个设施化生成的3D模拟,展示一个口岸城镇从公元前3000年到公元3000年的演变。只消GPT-5.5 Pro真实模拟了一个束缚演变的小镇,而不单是是生成新建筑替换旧的。何况它只用了20分钟,GPT-5.4 Pro花了33分钟。
但他也发现了问题。当条目模子创建一个全新的变装上演游戏王法并配图排版时,产出在技巧上很小巧且101页的PDF排版专科,王法也似乎合理。但是仔细读内容,AI在长篇假造创作上的老舛错还在。它心爱用神秘元素、过于复杂但未能完全已毕的宗旨、奇怪的隐喻、过多的丽都句子,以及统统变装相似的语气。他的论断是,即便在统统惊东说念主的技巧朝上之中,阿谁狼藉不皆的前沿仍然存在,只是它比昔时远得多了。
OpenAI首席科学家雅库布·帕乔基(Jakub Pachocki)在发布之际明白,他们骨子上还有空间来老师比这贤慧得多的模子。换句话说,GPT-5.5不是至极。
就在今天,这个模子如故上线。对于那些需要处理复杂编码任务、繁琐学问使命或股东科学研讨的用户来说,GPT-5.5提供的不单是一个更快的回应器用,而是一个能一语气意图、给与经过、执续推动任务往前走的系统。而对于开导者来说,还得再等一等API的认真绽放。在东说念主类将越来越复杂的使命交给AI的这条路上,GPT-5.5是一个值得关注的路标。
开云·体育中国官方网站
备案号: