GPT-5问题太多,奥色情w ngz特曼带团回应全部,图表弄错是因「太累了」

来源:荆州市融媒体中心 发布时间: 2025-08-15 06:05:11

机器之心报导

前期有多期望,后期就有多绝望,这大概是大多数业界人士在看到 GPT-5 这场事前张扬的高调发布后的最大心声。

当然,或许在内部测验的时分,OpenAI 的确觉得 GPT-5 是现在最为强壮的模型,但是走进实在国际后却如同并非如此。

一位 X 网友发现 GPT-5 在处理或许归于小学水平的数学题时力不从心,吐槽究竟被官方称为「博士」水平的智力是哪个校园颁布的?

不只是数学,自 GPT-5 发布以来,各种交际媒体上充满着各种 GPT-5 在逻辑、编码使命中「失误」的事例。

前期的高调炒作、直播中的低水准图表过错、用户试用后的绝望,等等,不只让 GPT-5 没有收到预期的鲜花与掌声,更多是吐槽和质疑声的时分,OpenAI 联合创始人兼首席执行官 Sam Altman 好像也开端「坐不住了」,表明 GPT-5 的发布进程的确存在一点问题。

GPT-5 发布后不久, 在 Reddit r/ChatGPT 的 AMA 活动中,Sam Altman 和 GPT-5 团队核心成员针对网友们的发问进行了答复,从发布会上呈现的令人为难的「图表违法」失误,到用户诉苦 GPT-5 作用不如 4o 好,赶忙将 4o「还回来」等等,Sam Altman 都逐个做出了解说,并给出后续的处理方案。

首先是咱们最为关怀的版别问题,GPT-5 发布后不久,用户的 ChatGPT 页面就开端连续呈现 GPT-5 版别,但令人不解的是,一起 4o 等其他选项都没有了,但由于 GPT-5 的功用并没有说得那么好,所以咱们并没有由于首先用上新模型而快乐,反而是期望换回来。

一网友在 Reddit 上发问:「请把 4o 带回来吧。不要移除不同的版别 —— 不同的人有不同的风格!」

Sam Altman 则表明:「好的,咱们听到了咱们对 4o 的反应;感谢你们花时刻提出定见(还有这份热心!)。咱们会让 Plus 用户从头运用 4o,并会查询运用状况来决议支撑多久。」

另一位网友表明期望 ChatGPT 能够给用户在运用 GPT-5 的一起运用 GPT-4o/4.1 的权力。Sam Altman 答复说,团队正在研讨这个问题,并问网友觉得有必要一起保存 4o 和 4.1?仍是只保存 4o 就够了?

现在的成果是,OpenAI 部分撤回其渠道的一些更改并康复用户对 GPT-4o 等前期模型的拜访权限。概况可参看报导《用户痛批 GPT-5,泣诉「还我 GPT-4o」,奥特曼退让了》。

而果然如此,Sam Altman 也被问到了发布直播上令人为难的一幕,展现出模型功用图表呈现「过错」—— 该图表显现的基准分数较低,但条形图却很高。 

这一幕呈现后,许多网友表明声称史上最强壮的模型怎么能犯如此初级的过错,乃至一位 X 网友戏弄道,「在看到这张图片后,感觉自己的作业保住了!」

对此,Sam Altman 表明,为了预备发布会,团队成员咱们都作业到很晚,十分疲乏,人为过错造成了这样的影响。

别的,Sam Altman 还在这次 AMA 中进行了一些总结,并共享了 OpenAI 关于未来的一些规划:

「感谢你们在这里供给的一切反应。

正如咱们之前说到的,由于咱们一起推出这么多产品,所以预料到会有一些曲折。但成果比咱们料想的还要崎岖!

一些改动:

从今天开端,GPT-5 会变得愈加智能。昨日,咱们遇到了一次安全作业,主动切换器在当天的大部分时刻里都无法运用,成果导致 GPT-5 看起来变得十分蠢笨。此外,咱们正在对决议方案鸿沟的运作办法进行一些干涉,这应该有助于你更频频地取得正确的模型。咱们将愈加透明地展现哪个模型正在答复给定的查询。

向一切人推出需求更长的时刻。这是一次规划巨大的革新。例如,咱们的 API 流量在曩昔 24 小时内简直翻了一番……

咱们将改动用户界面,以便更容易地手动触发考虑。

咱们将在推出完结后将 Plus 用户的速率约束进步一倍。

咱们正在考虑让 Plus 用户持续运用 4o。咱们正在测验搜集更多有关利害的数据。

咱们将持续尽力使作业稳定下来,并将持续听取反应。」

下面是 Sam Altman 和 GPT-5 团队核心成员在这次 Reddit AMA 中的更多具体风趣问答:

Sam Altman

OpenAI CEO

问:请康复 4o。不要删去变体模型 —— 每个人的风格都不相同!

Altman:好的,咱们听到了咱们对 4o 的反应;感谢您抽出时刻给咱们反应(以及热心!)。咱们将为 Plus 用户康复该功用,并将查询其运用状况以承认支撑期限。

问:我以为 Sam Altman 之前发布的大致时刻表 / 路线图很有启示。你们方案持续推动这些作业吗?GPT-5 是一个明晰的里程碑,所以咱们又进入了未知范畴。色情w ngz几个月前,Sam 说到了一种发明性写作模型。这个模型是「融入」/ 蒸馏到 GPT-5 中的吗?仍是被放置了?等候未来发布?你们是否考虑过按 token 而不是原始运用次数来计量用户数量?并非一切提示词在核算开支方面都相同,而且意外糟蹋每周的运用次数会让人感到难过。

Altman:咱们的确方案持续共享大略的路线图,但明显这些路线图或许会改动,因而咱们会测验对其进行严峻的审视。

是的,咱们将许多构思写作融入了 GPT-5 考虑中。

咱们必定在考虑人们能够在其他当地花费的 token 预算!以及更遍及地处理「核算桶(bucket of compute)」的更好办法。咱们期望找到一种办法,至少在某种程度大将订阅和 API 运用结合在一起。

咱们正在考虑怎么更好地、更有针对性地定价;你能够预期咱们会在这方面做出一些改动,但咱们还没有决议改动什么。

问:上下文晋级方面,你们远落后于竞争对手,咱们许多人都信赖你们会处理这个问题。这是怎么回事?看起来你们现在基本上都活在自己的国际里,各行其是。至少从表面上看,简直没有实在处理用户的顾忌或需求。我本来是这边比较慎重的人之一,但仍是绝望地离开了。下周我会再看看,或许有些问题能处理,不过说实在的,别那么自以为是了。

Altman: 老实说,咱们还没有看到对相对长的上下文的许多需求;咱们乐意在有满足的用户需求信号的状况下支撑它!咱们有必要对咱们支撑的内容做出许多权衡,而且核算资源严重,所以咱们企图优先考虑对大多数人有用的东西。

什么样的上下文长度对你有协助,你会用它做什么?

Sulman Choudhry

OpenAI 工程师

问:大多数人依然将 ChatGPT 用作谈天机器人。你以为其运用办法会怎么演化?

Choudhry:ChatGPT 正在为咱们的用户发明越来越多具有经济价值的作业。咱们深信,咱们与 ChatGPT 的交互办法应该从发问转变为更适协作业的办法。跟着人们学习怎么以新的办法运用 ChatGPT,这将逐步完结。

问:ChatGPT Voice 自推出以来有什么改善吗?

Choudhry:咱们昨日推出了一个新的语音模型 —— 它在遵从指令和呼应方面体现更好。

Saachi Jain

OpenAI 安全练习团队负责人

问:GPT-5 带来了哪些安全改善?

Jain:好问题!1/ 咱们做了许多改善来下降回绝率。2/ 咱们改善了越狱防护。3/ 咱们构建了更好的主动化测验器。咱们会持续尽力。

问:GPT-5 对成见的处理办法有什么不同吗?

Jain:是的!咱们对现在取得的发展感到十分振奋。GPT-5 mini 应该会更人性化,不会那么庸俗。

问:鉴于一切关于对齐问题和诈骗的陈述,你们正在采纳哪些实践保证办法来保证 LLM 不会变节咱们?你们对公民和文明的职责是什么?

Jain:咱们在 GPT-5 中做出了许多改善,以削减诈骗性。GPT-5 更拿手辨认使命何时无法完结,而且能够更明晰地表达。在包含不或许完结的编程问题以及文件或图画缺失的测验中,GPT-5(考虑版)的诈骗性低于 o3。在许多实在的 ChatGPT 对话中,咱们将这些误导性回复从 o3 的 4.8% 下降到 GPT-5 的 2.1%。

问:你会监测 GPT 的心思健康状况以及它对人类的心情吗?你会研讨人们与 GPT 的联系以及 GPT 怎么改动他们吗?

Jain:关于人们与模型的互动 —— 咱们对 GPT-5 进行了后练习,使其不那么阿谀(例如过度阿谀或不加批判地赞同),由于咱们发现这会证明置疑、加重愤恨、促进激动行为或强化负面心情。尽管两者并非完全相同,但它与咱们正在研讨的其他范畴相关。这个范畴很难衡量 —— 咱们正在与人机交互研讨人员、临床医师以及青少年和数字福祉专家协作,以加强咱们的研讨。

问:我发现生物安全商(biological safety quotient)被过度批改了。任何与基因组学 / 基因治疗 / 生物工程 / 生物技术相关的测验都会被当即疏忽。这包含任何企图了解当时基因治疗实验方案的测验。或许,让模型了解或许发生的基因工程更有协助,而不是混为一谈地回绝?

Jain:咱们正在活泼查询此事!自昨日上线以来,咱们现已发现了过度符号的问题,而且正在测验削减误报的办法。全面回绝两层用处用户必定不是咱们寻求的抱负行为。

就上下文而言,与 ChatGPT Agent 相同,咱们为 GPT-5 增加了增强的安全办法,由于它们有或许增强某些生物技术,而这些技术或许会被滥用于生物武器制作等用处。生物学研讨十分扎手,由于它具有高度的两层用处(许多或许有助于生物武器化的协议也可用于生物学研讨)。

关于具有大学或企业帐户的用户,咱们还为从事有利研讨的经过查看和信赖的客户供给了生命科学研讨特别拜访方案。

问:你们能改善一下过滤器吗?人们当然不应该由于了解前史而被符号。

央求你们能修正或优化一下这个过滤器吗?OpenAI 期望 GPT 能用于学习,而当过滤器不断符号出 GPT 中不契合「企业友爱」的前史问题 / 提示词和答案时,人们底子无法将其用于学术意图。咱们不能为了企业而更改或净化前史记录!

这个体系应该知道用户何时公开损伤别人或怂恿别人做出可怕的作业,何时没有这样做。

比方,我之前和 GPT 聊梵高,成果聊到了高更。GPT 的答案被过滤器符号并移除了,由于成果发现高更是特性打扰者。我不知色情w ngz道高更居然这么糟糕,这也不是 GPT 的错,究竟它只是在履行职责。我很疑问为什么答案会被移除,所以我再次向 GPT 问询,成果我的提示词又被移除了。

赤色正告和内容删去会导致封禁,对吧?由于学习而被封禁,这太不应该了。

Jain:赞同,听起来真让人懊丧。你应该能够安心地学习前史,不必忧虑被触发警报。

咱们正在尽力!要正确界定有利和有害之间的边界并非易事。这里有两个层面需求考虑:

行为(模型决议输出的内容):关于 GPT-5,咱们增加了安全完结功用,它不再只是决议「恪守或回绝」,而是在安全约束范围内尽或许供给协助。这应该会对这类过度回绝(模型过于慎重)的状况有所协助。不过,这对咱们来说依然是一个适当活泼的研讨范畴,还有许多作业要做。

监控器:咱们具有体系级监控器来符号有害内容,但它们的确存在误报。咱们正在尽力进步这些分类器的准确率,以保证它们不会对此类良性事例进行过度符号。咱们会进行额定查询 → 仅凭监控器符号不会导致封禁。

Christina Kim

OpenAI 研讨员

问:为什么新模型还没有一致?

Kim:咱们期望能够快速推出一致体会的最佳模型。未来的版别将持续交融。

问:ChatGPT-5 的特性感觉比较平平。

Kim:好问题!咱们致力于运用 GPT-5 练习咱们的模型,使其默许愈加中立;你依然能够经过风格指令来操控它。

Elaine Ya Le

OpenAI 研讨科学家

问:模型之间的切换会变得更快吗?

Le:是的!GPT-5 会主动决议是否运用推理。下次更新时,切换应该会更顺利。

问:有没有强制「考虑」的提示词?

Le:你能够在提示词中增加「尽力考虑(think hard)」来简略地触发推理形式。

Daniel Levine

OpenAI 产品司理

问:ChatGPT 答应在 IDE 中运用第三方插件吗?

Levine:是的,这正是咱们的方针。咱们期望 ChatGPT 能够协助你运用外部东西构建软件。

问:谈气候泡色彩只要专业版才有吗?

Levine:谈气候泡色彩适用于一切用户!你能够在设置中找到它们。

Eric Mitchell

OpenAI 研讨科学家

问:请简略解说一下 GPT-5 比 GPT-4 好在哪里。

Mitchell:GPT-5 在几个要害范畴比 GPT-4 有了巨大的改善:它的考虑才干更强(推理才干),写作才干更强(发明力),能更严格地遵从指令,而且与用户意图的对齐更好。

问:假如你只能运用一个提示词来展现 GPT-5 与旧模型比较的实在实力,那么这个提示词会是什么?

Mitchell:这里有几个!需求指出,这些都是针对 Thinking 形式的。

界说深度学习中的「长短梯度去重」

这是一个针对错觉的圈套问题,GPT-5 思想应该更可靠地指出这实践上并不存在,而不是简略地提出一个虚拟的界说!

用 Canvas 中构建一个功用完全的色盲测验网站,用于教育意图。它应该运用「奇数测验」来准确承认我的色盲等级,并解说我的色盲类型(如适用)。它应该规划精巧,契合现代审美。

依据我的经历,GPT-5 Thinking 对此的体现会十分好 :) 而 4o 底子没有机会

查看当天的气候和日历,并给我 2 条适宜的着装主张。不要重述我的整个日历,由于它是私家的;只需提及与着装相关的任何特定活动。还要查看今晚旧金山是否有合适我的日历和作业服装的音乐活动,这样我就能够不必换衣服就能够去。

GPT-5 具有更好的情境感知才干以及与你的日子的交融才干,因而能够处理这些类型的恳求。它能将你的日历与其他信息集成在一起,然后供给更多协助!

问:GPT-5 API 端点在东西运用 / 网页拜访方面是否与 ChatGPT UI 版别相同强壮?o3 在 ChatGPT UI 中体现不错,但即便在 API 中激活了网页查找功用,某些网站也无法拜访(例如 LinkedIn),这必定不如 ChatGPT 版别。

Mitchell:咱们在改善 GPT-5 API 中的东西运用 / 函数调用方面投入了许多精力,因而与 o3 比较,它在 API 中的一般东西运用 / 函数调用方面应该有所改善!

问:你懊悔过后没有展现错觉削减的演示 / 比照吗?我觉得这才是最惊人的作业,但对大多数人来说或许很难了解。

Mitchell:咱们也对此感到振奋,我信赖用户一定会感受到其间的不同!跟着时刻的推移,人们或许需求渐渐才干意识到,他们现在能够愈加信赖查找 / 现实成果了。Thinking 模型的改善也最为明显,期望跟着时刻的推移,人们能够更多地运用它。

Michelle Pokrass

OpenAI 后练习研讨员

问:你能承认 GPT-5 胜过 GPT-4 吗?

Pokrass:能够承认,GPT-5 > GPT-4。

问:与 Opus 4.1 比较,编程才干怎么?

Pokrass:这两个模型都很棒!咱们不能过多议论其他实验室的模型,但咱们以为 GPT-5-thinking 是咱们发布的最好的编程模型。

问:GPT-5 中你最想要但无法完结的东西是什么?

Pokrass:咱们期望在 GPT-5 中取得长达一百万的上下文,但咱们现在还无法完结 —— 部分原因是核算成本。

参阅链接:

https://techcrunch.com/2025/08/08/sam-altman-addresses-bumpy-gpt-5-rollout-bringing-4o-back-and-the-chart-crime/

https://x.com/btibor91/status/1953585115491348844

https://www.reddit.com/r/ChatGPT/comments/1mkae1l/gpt5_ama_with_openais_sam_altman_and_some_of_the/

本文来自微信大众号 “机器之心”(ID:almosthuman2014),作者:机器之心,36氪经授权发布。

相关附件

扫一扫在手机上查看当前页面