2025-08-10 06:24:15
作者:科技
分享:
【导语】北京时间8月8日凌晨,OpenAI震撼发布GPT-5,被誉为迈向通用人工智能(AGI)的重要里程碑。山姆·奥尔特曼称其为精通各领域的“博士级专家”。然而,发布会后评价褒贬不一。GPT-5在编程、写作、多模态、医疗咨询等方面全面进化,同时引入四种人格模式,商业化策略也颇具竞争力。但PPT翻车与幻觉争议,以及竞争对手的挑战,让这款超级智能模型的未来充满变数。在你看来,GPT-5的表现是否超预期?
北京时间8月8日凌晨1点,OpenAI正式发布GPT-5。山姆·奥尔特曼(Sam Altman)称GPT-5是“迈向通用人工智能(AGI)的重要一步”。他还表示,GPT-5就像是一位真正的博士级专家,精通任何你需要的领域。

然而发布会后大家对于GPT-5的评价直接两极分化,有说超预期的,也有失望“就这?”的。为什么会这样?我们先来看看GPT-5到底升级了啥?
编程、写作、多模态、医疗咨询全面进化
这场一个多小时的发布会,OpenAI的功能展示占据了绝大多数戏份。
首先是编程能力,GPT-5直接刷新了行业天花板,在SWE-Bench Verified(代码修复测试)中得分74.9%,在Aider Polyglot(多语言编程测试)中得分88%,远超前代模型。在发布会上,OpenAI后期训练负责人Yann Dubois现场演示了GPT-5如何根据指令快速生成法语学习、并带有互动游戏的网站(zhàn),甚(shén)至(zhì)能自动处理交互设计、进度记录等功能。短短几分钟就有这样精致的页面(miàn),确(què)实(shí)让(ràng)人(rén)惊(jīng)艳(yàn)。

多(duō)模(mó)态(tài)理(lǐ)解(jiě)方(fāng)面(miàn),GPT-5在(zài)一(yī)系(xì)列多模式基准测试中表现出色,涵盖视觉、基于视频、空间和科学推理。更强的多模态性能意味着,可以更准确地推理图像和其他非文本输入,无论是解释图表,总结演示文稿的照片还是回答有关图表的问题。
写作方面,OpenAI毫不谦虚地称GPT-5为“GPT-5是迄今为止最强大的写作协作工具”。该模型能够帮助用户将粗略的想法转化为引人入胜、富有文学深度和节奏感的文字作品。
健康咨询方面,在HealthBench Hard(医疗问答测试)中,GPT-5得分46.2%。OpenAI表示,与以前的模型相比,GPT-5更像是一个积极的思想伙伴,主动标记潜在的问题并提出问题以提供更多有用的答案。OpenAI强调,该模型还提供了更精确和可靠的响应,适应用户的上下文,知识水平和地理位置,使其能够在广泛的场景中提供更安全和更有用的响应。

想象一下,将我们的体检报告上传交给AI来辅助判断,或许能够更好地、更及时地制定诊疗决策。发布会上,OpenAI也邀请了一位同时患有三种癌症的女士分享了经历。这名换着通过上传病例报告到ChatGPT,更好地理解了报告中专业的医疗术语,在确诊初期对于自己面临的情况有了更清晰的理解。甚至由于病情的复杂程度,当专家把治疗决定全交给这位女士时,她选择了GPT来结合海量信息分析报告,并最终辅助这位患者做(zuò)出(chū)了(le)正(zhèng)确(què)的决定。
除了以上升级外,GPT-5还在降低幻觉影响方面取得突破。在启用网页搜索时,GPT-5响应的事实错误率较GPT-4o降低约45%;深度思考模式下,错误率较OpenAI o3降低近80%,大幅减少了“一本正经胡说八道”的情况。更难得的是,GPT-5在严守事实的同时,指令遵循能力跃升,拍马屁的倾向也大大降低。
为了让对话更有趣,GPT-5还引入了批判者(Cynic)、分析者(Robot)、倾听者(Listener)和书呆子(Nerd)四种“人格模式”供用户选择。比如让模型以“书呆子”模式详细解释量子力学原理,或以“倾听者”模式提供情感支持。
从免费用户到Pro套餐,API定价竞争力凸显
OpenAI的商业化策略同样值得关注。免费用户可直接使用GPT-5(普通版,带推理功能),但每月使用额度有限,触及上限后,系统会自动切换到GPT-5-mini(轻量型);Plus订阅用户除了能使用这些模型外,还享有更高的使用限额。而每月200美元的Pro套餐可无限使用GPT-5,并解锁更强的GPT-5 Pro版本(适合处理复杂任务)和GPT-5 Thinking(延长推理时间)。

对于开发者,OpenAI的(de)API定(dìng)价(jià)也(yě)颇具竞争力:GPT-5输入1.25美元/百万tokens,输出10美元/百万tokens;GPT-5 mini输入0.25美元/百万tokens,输出2美元/百万tokens;GPT-5 nano输入0.05美元/百万tokens,输出0.4美元/百万tokens。相较主要对手Anthropic与Google,GPT-5在不仅具备竞争力,甚至更为亲民。
性能飞跃能否掩盖PPT翻车与幻觉争议?
既然GPT-5的提升如此显著,为何评价还会两极分化?先说说发布会上出现的低级错误,比如在介绍GPT-5性能时OpenAI播放的几页PPT,实在是让人捉摸不透,这神奇的图表也成为发布会的一大亮(槽)点,52.8>69.1,让人质疑OpenAI的严谨性。奥特曼用“GPT-6来改进”的调侃缓解尴尬,但网友似乎并不买账。除此之外还有演示中神奇的大炮轨迹...也是让(ràng)人(rén)无(wú)力(lì)吐(tǔ)槽(cáo)。

另(lìng)外(wài),尽(jǐn)管(guǎn)OpenAI表(biǎo)示(shì)GPT-5的(de)幻(huàn)觉(jué)率(lǜ)大(dà)幅(fú)降(jiàng)低(dī),但(dàn)在(zài)实(shí)际(jì)测(cè)试(shì)中(zhōng),模(mó)型(xíng)仍(réng)会(huì)因(yīn)训(xun)练(liàn)数(shù)据(jù)的(de)局(jú)限性而犯错。官方Demo里“幻觉降低”的片段,被网友揪出了错误。
GPT-5的发布并未让竞争对手沉默。马斯克也赶来补刀,转发GPT-5在ARC-AGI-2测试中未能击败Grok 4的截图。并表示在今年年底前发布Grok 5。

写在最后:
尽管GPT-5存在争议,但不可否认的是,这款模型正悄然重塑人类与AI的关系——从工具,到伙伴,再到如今潜在的“超级智能”。那么,在你(nǐ)看(kàn)来(lái)这(zhè)个(gè)口(kǒu)袋(dài)里(lǐ)的(de)“博(bó)士(shì)级(jí)专(zhuān)家(jiā)团(tuán)队(duì)”表(biǎo)现(xiàn)是(shì)否(fǒu)超(chāo)预(yù)期(qī)?
供(gōng)稿(gǎo)单(dān)位(wèi):重(zhòng)庆(qìng)天(tiān)极(jí)网(wǎng)络(luò)有(yǒu)限(xiàn)公(gōng)司(sī)
审(shěn)核(hé)专(zhuān)家(jiā):李(li)志(zhì)高(gāo) 高(gāo)级(jí)工(gōng)程(chéng)师(shī)/重(zhòng)庆(qìng)天(tiān)极(jí)网(wǎng)络(luò)有(yǒu)限(xiàn)公(gōng)司(sī)总(zǒng)裁(cái)
声(shēng)明(míng):除(chú)原(yuán)创(chuàng)内(nèi)容(róng)及(jí)特(tè)别(bié)说(shuō)明(míng)之(zhī)外(wài),部(bù)分(fēn)图(tú)片(piàn)来(lái)源(yuán)网络,非商业用途,仅作为科普传播素材,版权归原作者所有,若有侵权,请联系删除。
