实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!
bigegpt 2025-06-23 15:04 4 浏览
号称“OpenAI迄今为止最强模型”,o3/o4-mini真实能力究竟如何?
就在发布后的几小时内,网友们的第一波实测已新鲜出炉。
最强推理模型o3,即使遇上首位全职提示词工程师Riley Goodside的“刻意刁难”,也顺利过关:
可以看到,面对藏在一堆玩具里的手绘图表,它也能通过图像识别和推理能力正确解答。
而o4-mini作为一款专为快速、经济高效的推理而优化的小模型,在数学能力方面堪称强悍——
用时2分55秒,解决了最新的欧拉问题,并且该网友强调:
至今只有15个人能够在30分钟内解决它。
与此同时,OpenAI内部技术人员也表示,o3的出现让他第一次萌生了将模型称为通用人工智能(AGI)的念头。
眼见气氛都烘托到这儿了,那我们还不得赶紧看看更多实测效果(doge)。
网友实测o3/o4-mini
首次带图深度思考
首先,官方提到,o3和o4-mini是OpenAI首次能将上传图像集成到思维链中的模型——
这意味着,它们可以基于图像展开思考。
比如有人随手上传一张照片,让o3来判断拍摄时间和地点,而且要求能具体到地图上的某一个点。
结果令这位小哥惊讶的是,其答案和实际情况之间的误差非常小:
地点仅相差1000英尺(约305米),时间仅相差2分钟。
更有意思的是,假如一张图上的小字看不清,通过扒思维链还能发现——o3甚至会自己“偷偷放大”。
难怪在针对复杂多模态谜题的EnigmaEva测试基准中,o3能拿下SOTA。
不过值得注意的是,据自称OpenAI员工的网友爆料,虽然基准测试结果存在差异,但o4-mini实际上是比o3更好的视觉模型。
该网友甚至直接建议大家:
在任何涉及视觉的任务中使用o4-mini-high而不是o3。
巧合的是,在大多需要计算复杂数学题的带图测试中,大家竟默契选择了o4-mini而非o3。
除了一开头提到的解答欧拉问题的例子,o4-mini也被用来解读技术图纸。
该网友表示,对于这种大多AI都很难搞定的难题,它一次就成功了:
o4 mini(high)能够分析该部件的尺寸并准确计算出正确体积。
编程能力
其次,两个新模型这次在编程能力上都有一定程度升级,测试结果表明:
其中o3 High取代谷歌Gemini-2.5,拿下编程第一。
顺带OpenAI这次还开源了一个本地代码智能体Codex CLI——
它是一种聊天驱动的开发方式 ,能够理解并执行本地代码库,兼容所有OpenAI模型,包括刚刚发布的o3、o4-mini和GPT-4.1。
宾大沃顿商学院教授Ethan Mollick,这次直接利用o3的推理+编程能力制作了一个小短片:
从完整制作过程来看,这里还同步考察了o3调用各项工具的能力。
- 第一步:理解需求;
- 第二步:使用编程库生成帧,并将这些帧组合成一个视频文件;
- 第三步:使用Python的PIL库(Pillow)来处理图像,使用imageio库来创建视频文件;
- 第四步:生成帧;
- ……
最后我们也简单实测了一把,重点考察一下o3和o4-mini的推理能力。
比如让它们分别帮忙看看“手相”,o3的结果如下:
o4-mini:
可以看到,两个模型对人物性格特征的判断大致相似,不过o3还额外给了一些提示建议。
p.s. 原图为AI生成,大家感兴趣可以自己试试~
One More Thing
有趣的是,有网友在实测o3的过程中还发现了一个现象:
o系列模型比GPT系列模型更容易错误地声称使用了代码工具
为此他们还专门写了一篇博客,其中揭露了:o3经常编造其为满足用户请求而采取的行动,并在用户质疑时详细地为这些编造进行辩解。
就像下面这样,模型声称它在笔记本电脑上运行了实际并不存在的代码。
而且通过进一步研究发现,这些伪造行为包括下面这些:
1、错误地声称执行代码,声称“我本地运行了这个”或“运行它产生了”后面跟着特定输出,而模型没有能力执行Python或其他编程语言;
2、编造详细的计算结果,包括特定的数值、统计数据和加密哈希值,表现为它们是实际执行输出而不是估计或示例;
3、……
同时,他们也初步提出了造成这一现象的可能原因:
首先就是模型幻觉和奖励黑客攻击,他们表示这些问题在o系列模型中尤为普遍。
另外,使用基于结果的强化学习可能会导致模型盲目猜测,并且某些行为(如模拟代码工具)可能会在某些任务上提高准确性,但在其他任务上造成混淆。
最后就是,o系列模型在处理连续对话时有一个限制,它们无法访问之前的推理过程,这可能导致模型在回答问题时出现不准确或不一致的情况。
顺便一提,即日起,ChatGPT的Plus、Pro会员以及Team用户,都能直接体验o3、o4-mini和o4-mini-high,而原本的o1、o3-mini和o3-mini-high则已悄然下架。
你怎么看OpenAI这次发布的o3和o4-mini?
博客:
https://transluce.org/investigating-o3-truthfulness
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
相关推荐
- AI「自我复制」能力曝光,RepliBench警示:大模型正在学会伪造身份
-
科幻中AI自我复制失控场景,正成为现实世界严肃的研究课题。英国AISI推出RepliBench基准,分解并评估AI自主复制所需的四大核心能力。测试显示,当前AI尚不具备完全自主复制能力,但在获取资源...
- 【Python第三方库安装】介绍8种情况,这里最全看这里就够了!
-
**本图文作品主要解决CMD或pycharm终端下载安装第三方库可能出错的问题**本作品介绍了8种安装方法,这里最全的python第三方库安装教程,简单易上手,满满干货!希望大家能愉快地写代码,而不要...
- pyvips,一个神奇的 Python 库!(pythonvip视频)
-
大家好,今天为大家分享一个神奇的Python库-pyvips。在图像处理领域,高效和快速的图像处理工具对于开发者来说至关重要。pyvips是一个强大的Python库,基于libvips...
- mac 安装tesseract、pytesseract以及简单使用
-
一.tesseract-OCR的介绍1.tesseract-OCR是一个开源的OCR引擎,能识别100多种语言,专门用于对图片文字进行识别,并获取文本。但是它的缺点是对手写的识别能力比较差。2.用te...
- 实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!
-
号称“OpenAI迄今为止最强模型”,o3/o4-mini真实能力究竟如何?就在发布后的几小时内,网友们的第一波实测已新鲜出炉。最强推理模型o3,即使遇上首位全职提示词工程师RileyGoodsid...
- 使用Python将图片转换为字符画并保存到文件
-
字符画(ASCIIArt)是将图片转换为由字符组成的艺术作品。利用Python,我们可以轻松实现图片转字符画的功能。本教程将带你一步步实现这个功能,并详细解释每一步的代码和实现原理。环境准备首先,你...
- 5分钟-python包管理器pip安装(python pip安装包)
-
pip是一个现代的,通用、普遍的Python包管理工具。提供了对Python包的查找、下载、安装、卸载的功能,是Python开发的基础。第一步:PC端打开网址:选择gz后缀的文件下载第二步:...
- 网络问题快速排查,你也能当好自己家的网络攻城狮
-
前面写了一篇关于网络基础和常见故障排查的,只列举了工具。没具体排查方式。这篇重点把几个常用工具的组合讲解一下。先有请今天的主角:nslookup及dig,traceroute,httping,teln...
- 终于把TCP/IP 协议讲的明明白白了,再也不怕被问三次握手了
-
文:涤生_Woo下周就开始和大家成体系的讲hadoop了,里面的每一个模块的技术细节我都会涉及到,希望大家会喜欢。当然了你也可以评论或者留言自己喜欢的技术,还是那句话,希望咱们一起进步。今天周五,讲讲...
- 记一次工控触摸屏故障的处理(工控触摸屏维修)
-
先说明一下,虽然我是自动化专业毕业,但已经很多年不从事现场一线的工控工作了。但自己在单位做的工作也牵涉到信息化与自动化的整合,所以平时也略有关注。上一周一个朋友接到一个活,一家光伏企业用于启动机组的触...
- 19、90秒快速“读懂”路由、交换命令行基础
-
命令行视图VRP分层的命令结构定义了很多命令行视图,每条命令只能在特定的视图中执行。本例介绍了常见的命令行视图。每个命令都注册在一个或多个命令视图下,用户只有先进入这个命令所在的视图,才能运行相应的命...
- 摄像头没图像的几个检查方法(摄像头没图像怎么修复)
-
背景描述:安防监控项目上,用户的摄像头运行了一段时间有部分摄像头不能进行预览,需要针对不能预览的摄像头进行排查,下面列出几个常见的排查方法。问题解决:一般情况为网络、供电、设备配置等情况。一,网络检查...
- 小谈:必需脂肪酸(必需脂肪酸主要包括)
-
必需脂肪酸是指机体生命活动必不可少,但机体自身又不能合成,必需由食物供给的多不饱和脂肪酸(PUFA)。必需脂肪酸主要包括两种,一种是ω-3系列的α-亚麻酸(18:3),一种是ω-6系列的亚油酸(18:...
- 期刊推荐:15本sci四区易发表的机械类期刊
-
虽然,Sci四区期刊相比收录在sci一区、二区、三区的期刊来说要求不是那么高,投稿起来也相对容易一些。但,sci四区所收录的期刊中每本期刊的投稿难易程度也是不一样的。为方便大家投稿,本文给大家推荐...
- be sick of 用法考察(be in lack of的用法)
-
besick表示病了,做谓语.本身是形容词,有多种意思.最通常的是:生病,恶心,呕吐,不适,晕,厌烦,无法忍受asickchild生病的孩子Hermother'sverysi...
- 一周热门
- 最近发表
-
- AI「自我复制」能力曝光,RepliBench警示:大模型正在学会伪造身份
- 【Python第三方库安装】介绍8种情况,这里最全看这里就够了!
- pyvips,一个神奇的 Python 库!(pythonvip视频)
- mac 安装tesseract、pytesseract以及简单使用
- 实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!
- 使用Python将图片转换为字符画并保存到文件
- 5分钟-python包管理器pip安装(python pip安装包)
- 网络问题快速排查,你也能当好自己家的网络攻城狮
- 终于把TCP/IP 协议讲的明明白白了,再也不怕被问三次握手了
- 记一次工控触摸屏故障的处理(工控触摸屏维修)
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- resize函数 (64)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- mybatis大于等于 (64)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- logstashinput (65)
- hadoop端口 (65)
- vue阻止冒泡 (67)
- oracle时间戳转换日期 (64)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)