奥特曼自诩:达到或接近天才水平!OpenAI,重磅发布!

0次浏览     发布时间:2025-04-17 12:43:00    

OpenAI迄今最智能的推理模型发布。

今日,OpenAI发布了最新两款o系列推理模型,分别是o3和o4-mini,这也是o系列中首次可以使用图像进行思维链推理、实现“看图思考”的模型。其中,o3是其最强大的推理旗舰模型,在编程、数学、科学、视觉感知等多个维度的基准测试中都处于领先位置;o4-mini是一个针对快速高效、成本效益推理进行优化的较小模型,更具性价比。

在两款o系列推理模型发布后,OpenAI首席执行官萨姆·奥特曼转发一名体验者的推文,并表示新模型“达到或接近天才水平”。此外,奥特曼还表示,预计会在未来几周内将o3升级到专业版o3-pro。

视觉推理能力“首秀”,具备自主执行任务能力

据OpenAI介绍,最新发布的o3和o4-mini经过训练后,可以在做出反应前进行更长时间的思考。这是公司迄今为止发布的最智能的模型,代表着ChatGPT能力的一次重大飞跃。

记者注意到,在半小时的线上发布会直播中,此前曾长期休假的OpenAI总裁GregBrockman(格雷格·布洛克曼)也作为发布者,向观众介绍和演示o3和o4-mini。

根据介绍及演示,o3和o4-mini主要有以下亮点:

一是性能更强大。作为OpenAI迄今最强大的推理模型,o3和o4-mini在编程、数学、科学、视觉理解等多个领域均取得了突破性进展。在STEM问答(MMMU、MathVista)、图表阅读和推理(CharXiv)、感知原语(VLMsareBlind)和视觉搜索(V*)方面均达到了新的最先进性能。

此外,在外部专家的评估中,o3在困难的现实任务中比OpenAIo1犯的重大错误少20%,尤其是在编程、商业/咨询和创意构思等领域表现出色。o4-mini作为一款体型更小的模型,则以其尺寸和成本实现了卓越的性能,是AIME2024和2025基准测试中表现最佳的模型。而且o4-mini支持比o3高得多的使用限制,具备高容量、高吞吐量的优势。

二是具备图像思考和推理能力,可实现“看图思考”。与前代模型相比,o3和o4-mini模型可以直接将图像整合到思维链中,用图像来进行思考,并在多模态基准测试中展现出顶尖性能。

OpenAI称,人们可以上传白板照片、教科书图表或手绘草图,即使图像模糊、反转或质量低下,模型也能对其进行解读。借助工具,模型可以动态操作图像,在推理过程中进行旋转、缩放或变换。

比如,当用户将一张写有较难看清文字的笔记本图片输入到对话框中,并提问“笔记本上写了什么”时,o3会分析图片,并依次推理出其中的文字内容。当用户向其输入一张手绘题目的图片时,o3也会对图片进行仔细识别,并给出完整的解题思维链。

三是可调动ChatGPT中的工具,自主执行任务。据介绍,o3和o4-mini可以完全访问ChatGPT中的工具,以及通过API中的函数调用访问用户自己的自定义工具。例如,用户可能会问:“加州夏季的能源使用量与去年相比如何?”该模型可以搜索网络公共事业数据,编写Python代码进行预测,生成图表或图像,并解释预测背后的关键因素,并将多个工具调用串联起来。推理功能使模型能够根据遇到的信息做出反应和调整。

新模型“小步快跑”,GPT-5依然不见踪影

最近一段时间以来,OpenAI在新模型、新功能的发布上保持着密集的节奏,以层出不穷的新模型展现技术的最新实力。

值得注意的是,在推出o3系列最新模型的前一天,OpenAI还推出三款GPT-4.1系列模型,包含标准版GPT-4.1、轻量款GPT-4.1mini,以及超小型版本GPT-4.1nano。事实上,此前GPT系列模型已进化至4.5版本,而此次的“倒退”则是OpenAI在面对全球大模型厂商激烈的价格竞争而采取的策略,以更具性价比的4.1版本吸引更多用户。

据介绍,GPT-4.1最大优势在于多模态处理、代码能力、指令遵循和成本方面实现显著提升。价格方面,GPT-4.1比GPT-4o价格降低26%,GPT-4.1Nano作为最小、最快的模型,价格也最便宜,每百万token的成本仅为12美分。

相比于这些新模型,公众一直更为期待的是GPT-5,但GPT-5的发布时间却一直在延迟。去年年底,华尔街日报报道称,GPT-5正面临重重困难,该项目已开发超过18个月,成本花费巨大,却仍未取得预期成果。

奥特曼此前也曾经表示,由于计算能力的限制,公司无法按预期频率推出GPT-5。今年4月初,奥特曼在社交媒体上发文称,GPT-5的发布比预期要晚,因为“顺利整合所有内容比我们预想的要困难得多。”他表示,将在未来几周内发布o3和o4-mini,未来几个月将发布GPT-5,并强调GPT-5发布后会非常受欢迎,可能会有大量的用户使用,所以需要提前做好准备。

与备受关注的GPT-5一样,目前大家也对DeepSeek的下一代推理模型R2充满期待。市场预期R2将于今年5月推出。前不久,DeepSeek与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文,提出自我原则点评调优(SPCT)与元奖励模型(MetaRewardModel)两项核心技术,为提升大语言模型的推理能力提供了全新方法论,被视为下一代推理模型R2的重要技术铺垫。

责编:叶舒筠

校对:祝甜婷

版权声明

证券时报各平台所有原创内容,未经书面授权,任何单位及个人不得转载。我社保留追究相关行为主体法律责任的权利。

转载与合作可联系证券时报小助理,微信ID:SecuritiesTimes

END