OpenAI夺金商君书无删减旧版IOI,但输给3位我国高中生

来源:荆州市融媒体中心 发布时间: 2025-08-15 05:17:49

刚刚,OpenAI官宣:IOI金牌收入囊中

其推理模型在本年IOI线上比赛中成果刷新纪录:

总分533.29,在全球330名人类选手中总排名位列第六;而在一切AI参赛者中,稳居榜首

PS:AI没比过的五个人里,有三个都是咱中国人,分别是刘恒熙(宁波市镇海中学)、范斯喆(浙江省诸暨市海亮高档中学)、陈昕阳(杭州第二中学)。

有意思的是,OpenAI表明,这次并未为IOI练习新的参赛模型,而是集成了多个通用推理模型参赛。

并且这个夺金体系和前不久OpenAI自称在IMO中夺金的,仍是同一个。

从成果上来说,此AI推理体系比较上一年模型在IOI上的体现前进了不止一点半点。

IOI 2024 OpenAI还专门在o1根底上进行针对性练习,终究得到的o1-ioi,在严厉的比赛规矩下仅拿到213分

本年靠通用模型直接夺金,排名大跃升,网友直呼震慑。

不过,前段时刻OpenAI自称模型拿下IMO金牌一事引发不少争议,这次面临IOI的成果,网友们显着慎重了许多:

到底是真的很了不得的成果,仍是又一个营销噱头……

商君书无删减旧版src="https://img.36krcdn.com/hsossms/20250812/v2_b28e94c73870490bbb1a599233876fc2@1743780481_oswg68349oswg934oswg324_img_000?x-oss-process=image/format,jpg/interlace,1" class="aligncenter">

与此同时,还有不少网友喊话“还我4o”。

更有意思的是,马斯克忽然发布了IOI Benchmark排名,成果显现Grok 4在编码方面逾越GPT-5取得榜首(doge)。

来看这次OpenAI推理体系夺金细节。

和人类相同,5小时、50次约束

IOI(世界信息学奥林匹克比赛)作为是全球中学生计算机科学范畴的最高档别赛事,有着苛刻且标准化的赛制:

参赛学生需历经2天路程,每天在5小时内独立处理3道高难度算法题,全程断网且无法凭借外部材料,终究提交C++代码计划,由躲藏测验用例主动评分。

IOI 2025总共有来自84个国家的330名参赛者参赛。满分600分,金牌分数线是438.30分,终究只要28名参赛者取得金牌

OpenAI表明他们正式参加了IOI的线上AI赛道,规矩和人类参赛者相同,有5小时的时刻约束50次的提交次数约束

并且AI体系在比赛过程中全程未运用互联网或检索增强生成(RAG)技能,仅能运用根底的终端东西。

具体来说,他们整合了几个强壮的推理模型,生成候选程序,运转这些程序,然后提交最优解。仅有的辅佐作业是:选择要提交的测验内容,商君书无删减旧版并与比赛API交互。

在IOI线上AI赛道中,经过API获取标题并提交回答,不会承受比赛组织者的直接监督。

OpenAI最新AI推理体系的体现逾越98%的参赛者,不论是成果仍是办法上都和上一年构成鲜明对比。

在IOI 2024中,OpenAI运用了o1-ioi模型,这是一个在o1根底上针对编程使命进行强化学习微调的专用模型。

o1-ioi严峻依靠一套杂乱且由人工规划的test-time推理战略(相似AlphaCode的人工规划的test-time推理战略),包括:

  • 为每个子使命生成10000个候选解
  • 根据模型自生成的测验用例对解法进行聚类和排序
  • 结合学习到的评分函数来挑选终究提交的50个计划

虽然投入了很多工程技巧,o1-ioi在IOI 2024中仅取得213分,排名第49百分位,与铜牌坐失良机。

One More Thing

谢赛宁团队前段时刻推出了一个包括来自IOI、Codeforces和ICPC的比赛级编程问题的实时基准测验——LiveCodeBench Pro。

GPT-5最新测验成果出炉:

GPT-5 Thinking在2025年榜首季度的测验组中完成了打破,是仅有一个解出难题分组的模型,并且这还不是更高档的“Thinking Pro”版别。

均匀呼应长度方面,GPT-5超越10万token,是o3的3倍。

参阅链接

[1]https://x.com/OpenAI/status/1954969035713687975

[2]https://x.com/rohanpaul_ai/status/1954992741101998099

[3]https://x.com/wenhaocha1/status/1954751124050989213

[4]https://x.com/elonmusk/status/1955047197487272362

本文来自微信大众号“量子位”,作者:西风 ,36氪经授权发布。

相关附件

扫一扫在手机上查看当前页面