GPT-5.4 来了!操作电脑超过人类,100万token上下文,三巨头格局又变了
OpenAI 发布 GPT-5.4,首次将编码、推理、电脑操控融合到一个模型。OSWorld 跑分 75% 超越人类,1M token 上下文,Tool Search 省 47% token。定价、跑分、三巨头格局全面对比。


OpenAI 昨晚放了个大的。
GPT-5.4 来了,一次发了三个版本:GPT-5.4、GPT-5.4 Thinking、GPT-5.4 Pro。
Sam Altman 在推特上说:“You can steer it mid-response, and it supports 1m tokens of context.” 你可以在它回答的中途改方向,而且支持 100 万 token 的上下文。
Sam Altman 推特宣布 GPT-5.4
距离 GPT-5.2 发布才三个月,距离 GPT-5.3 Codex 更是才几周。Gemini 3.1 Pro 两周前刚把它打下王座,现在要抢回来。
这篇文章拆一拆 GPT-5.4 ,强在哪,把 Claude、Gemini 拿出来对比看看,定价情况,以及对我们这些每天高强度用大模型 的人来说意味着什么。
先说结论:这次最大的看点不是某一项跑分又高了几个百分点,而是 OpenAI 终于把编码、推理、电脑操控全合到了一个模型里。一个模型干所有事,这是 AI 工具进化的正确方向。
AI 第一次在操作电脑上超越人类
这次 GPT-5.4 最炸是它成了 OpenAI 第一个内置"电脑操控"能力的主线模型。
OpenAI 官方 Benchmark 对比表
就是它能像一个真人一样操作你的电脑。看截图,识别界面元素,然后发出鼠标点击和键盘输入的指令,在不同应用之间切换完成任务。
打开浏览器搜东西、切到 Excel 填数据、再打开邮件发出去,这些步骤它能一气呵成。不需要你给它写脚本,不需要那个软件有 API 接口,只要有屏幕有界面,它就能操作。
之前 Anthropic 的 Claude 也做了 Computer Use,算是第一个吃螃蟹的。
但 Claude 的 Computer Use 是一个单独的功能模块,需要专门调用,和它的推理、编码能力是分开的。GPT-5.4 把电脑操控直接融进了通用模型里。写代码、做推理、操作电脑,一个模型搞定。
OpenAI 在技术文档里说,GPT-5.4 操作电脑有两种方式:一种是直接写 Playwright 这样的自动化代码来控制浏览器和应用;另一种是通过截图识别界面,然后发出键盘和鼠标指令。
两种方式可以混合使用,遇到有 API 的软件用代码更快更准,遇到没有 API 的软件就用截图加键鼠。
OSWorld-Verified 是专门测试 AI 操作电脑桌面环境的 benchmark,通过截图和键鼠操作来导航界面、完成任务。
GPT-5.4 拿了 75.0%。
人类的成绩是 72.4%。
上一代 GPT-5.2 只有 47.3%。
一代之间涨了 28 个点,而且超过了人类。Claude Opus 4.6 是 72.7%,也被超了。
OSWorld 跑分对比
AI Agent 真正有了可用的“手和眼”。以前的 Agent 只能调 API、写代码,现在它能直接操作任何有图形界面的软件。不需要那个软件有 API,只要有屏幕,它就能操作。
83% 的专业任务超过人类
OpenAI 这次特别强调了一个数据:GDPval 测试里,GPT-5.4 拿了 83%。
GDPval 是 OpenAI 自己搞的一个测试,但含金量不低。它模拟的是 9 个行业、44 个真实职业的工作任务,让 AI 和该领域的专业人士同台竞技。
83% 的意思是,在这些专业任务里,GPT-5.4 有 83% 的概率能做到和专业人士一样好甚至更好。ZDNET 的标题写的是“GPT-5.4 clobbers humans on pro-level work”,在专业工作中碾压人类。
OpenAI 还说幻觉问题明显改善。单条事实错误减少了 33%,整体回复出错的概率降了 18%。对于做金融、法律这些高风险领域的人来说,这个改进很关键。
OfficeChai benchmark 对比表
100 万 token 上下文 + Tool Search
1M token 的上下文窗口是 OpenAI 目前最大的。
这个 1M 窗口目前只在 API 和 Codex 里提供,ChatGPT 的聊天窗口还用不到这么长的上下文。而且超过 200K token 的请求会按更高的价格计费,大上下文不便宜。
OpenAI 开发者社区里有人专门写了指南,建议开发者先想清楚是不是真的需要 1M,大部分场景 200K 够用了。
另一个对开发者很重要的新功能是 Tool Search。
以前调用 AI 模型的时候,如果你有很多工具(MCP server、API 接口等),需要把所有工具的定义都塞进 system prompt 里。工具一多,光描述这些工具就要花掉大量 token。
GPT-5.4 的 Tool Search 改变了这个做法。模型不再一次性加载所有工具定义,而是按需查找。需要哪个工具,现查现用。
OpenAI 用 36 个 MCP server、250 个任务做了测试,启用 Tool Search 后 token 消耗直接降了 47%,准确率不变。
对于搞 AI Agent 开发的人来说,你可以给模型接更多工具而不用担心 token 爆炸。省 token 就是省钱。
The Decoder 详细解析
三巨头打成什么样了
先看整体格局。
GPT-5.4 发布之前,Gemini 3.1 Pro 是最近两周的跑分王者,大部分 benchmark 都是第一。Claude Opus 4.6 上个月发布时也拿过不少第一。现在 GPT-5.4 一出来,很多排名又变了。
在电脑操控能力上(OSWorld-Verified),GPT-5.4 拿了 75.0%,超过 Claude Opus 4.6 的 72.7% 和人类的 72.4%。这是目前所有模型里最高的。
在知识工作能力上(GDPval),GPT-5.4 的 83.0% 也是第一,进步很大,Opus 4.6 是 78.0%。
在网页浏览能力上(BrowseComp),GPT-5.4 Pro 拿了 89.3%,超过 Gemini 3.1 Pro 的 85.9%。
在代码能力上(SWE-Bench Pro),GPT-5.4 是 57.7%,比 Gemini 3.1 Pro 的高一点,但差距不大。
Reddit 上有人吐槽:“只比 5.3 Codex 高了 1 个百分点,有点失望。”
在纯推理能力上(GPQA Diamond),GPT-5.4 Pro 是 94.4%,Gemini 3.1 Pro 是 94.3%,基本打平。
在工具调用能力上(Toolathlon),GPT-5.4 拿了 54.6%,超过 GPT-5.3-Codex 和 Claude 。
三巨头竞争格局
总结一下就是:GPT-5.4 在 Agent 能力(电脑操控、工具调用、网页浏览)和专业工作上全面领先。但在纯推理和编码上,三家差距不大,你追我赶。
定价:单价涨了,但总账可能更便宜
API 定价:$2.50/百万输入 token,$15/百万输出 token。
对比上一代:GPT-5.2 是 $1.75 输入 / $7 输出,GPT-5.4 输入贵了 43%,输出贵了一倍多。乍一看涨价不少。
但 OpenAI 的说法是,GPT-5.4 完成同样的任务用的 token 更少。Tool Search 在工具多的场景下 token 消耗直接降 47%,模型本身的 token 效率也提升了。
当然这需要实际跑过才知道。如果你的场景工具少、上下文短,那确实就是涨价了。
横向对比:
Claude Opus 4.6 的定价是 $15 输入 / $75 输出,贵得多。
Gemini 3.1 Pro 是 $2 输入 / $12 输出,和 GPT-5.4 差不多。
从性价比看,Gemini 3.1 Pro 依然是价格最友好的选择。
ChatGPT 用户方面,GPT-5.4 Thinking 对 Plus($20/月)、Team 和 Pro 用户开放,正在灰度发布中。
OpenAI 急了
最近半年 OpenAI 的节奏有点乱。
GPT-5.2 去年底发的时候被吐槽“挤牙膏”,编码能力被 Claude 吊打。然后出了 GPT-5.3 Codex 专门补编码短板,紧接着 Gemini 3.1 Pro 两周前发布又把它们都比下去了。
前几天先放了个 GPT-5.3 Instant 稳住阵脚,两天后 GPT-5.4 就来了。节奏很快,明显是在回应竞争压力。
这次 GPT-5.4 最大的亮点不是某个单项跑分,而是“融合”。以前 OpenAI 的模型线很散现在把编码、推理、电脑操控全合到了一个模型里。
把之前散落在不同模型里的能力收回到一个模型。这个方向是对的,Anthropic 的 Claude 从一开始就是一个模型干所有事,OpenAI 现在也往这个方向走了。
对我们来说意味着什么
对于普通用户来说,GPT-5.4 Thinking 替代了之前的 GPT-5.2 Thinking,质量更好,幻觉更少。如果你是 ChatGPT Plus 用户,更新后就能用到。
对于开发者来说,三个能力值得关注:
Computer Use 让 AI Agent 能直接操作任何有图形界面的软件,不再依赖 API。这对做自动化的人来说是个大利好。
Tool Search 对 MCP 生态特别有价值。如果你在用 OpenClaw 或类似的 Agent 框架,接了一堆工具,Token 消耗能直接减半。
1M 上下文窗口对做 RAG 或者处理长文档的场景很实用,不用再费劲做分片了。
**对于跑 OpenClaw 的人来说,这次更新也值得关注。**运行成本能降不少。
在哪能用
ChatGPT 里已经在灰度发布 GPT-5.4 Thinking,Plus/Team/Pro 用户可以在模型选择器里切换。Free 用户目前用不了 Thinking 版本。
aigocode.com 第三方 API 中转也可以用,终端手动指定模型:codex --model gpt-5.4-codex
OpenAI Codex 终端截图