深度文章AI更新

GPT-5.4 来了！操作电脑超过人类，100万token上下文，三巨头格局又变了

OpenAI 发布 GPT-5.4，首次将编码、推理、电脑操控融合到一个模型。OSWorld 跑分 75% 超越人类，1M token 上下文，Tool Search 省 47% token。定价、跑分、三巨头格局全面对比。

2026年3月7日

14 分钟阅读

GPT-5.4 来了！操作电脑超过人类，100万token上下文，三巨头格局又变了

OpenAI 昨晚放了个大的。

GPT-5.4 来了，一次发了三个版本：GPT-5.4、GPT-5.4 Thinking、GPT-5.4 Pro。

Sam Altman 在推特上说：“You can steer it mid-response, and it supports 1m tokens of context.” 你可以在它回答的中途改方向，而且支持 100 万 token 的上下文。

Sam Altman 推特宣布 GPT-5.4

距离 GPT-5.2 发布才三个月，距离 GPT-5.3 Codex 更是才几周。Gemini 3.1 Pro 两周前刚把它打下王座，现在要抢回来。

这篇文章拆一拆 GPT-5.4 ，强在哪，把 Claude、Gemini 拿出来对比看看，定价情况，以及对我们这些每天高强度用大模型的人来说意味着什么。

先说结论：这次最大的看点不是某一项跑分又高了几个百分点，而是 OpenAI 终于把编码、推理、电脑操控全合到了一个模型里。一个模型干所有事，这是 AI 工具进化的正确方向。

AI 第一次在操作电脑上超越人类

这次 GPT-5.4 最炸是它成了 OpenAI 第一个内置"电脑操控"能力的主线模型。

OpenAI 官方 Benchmark 对比表

就是它能像一个真人一样操作你的电脑。看截图，识别界面元素，然后发出鼠标点击和键盘输入的指令，在不同应用之间切换完成任务。

打开浏览器搜东西、切到 Excel 填数据、再打开邮件发出去，这些步骤它能一气呵成。不需要你给它写脚本，不需要那个软件有 API 接口，只要有屏幕有界面，它就能操作。

之前 Anthropic 的 Claude 也做了 Computer Use，算是第一个吃螃蟹的。

但 Claude 的 Computer Use 是一个单独的功能模块，需要专门调用，和它的推理、编码能力是分开的。GPT-5.4 把电脑操控直接融进了通用模型里。写代码、做推理、操作电脑，一个模型搞定。

OpenAI 在技术文档里说，GPT-5.4 操作电脑有两种方式：一种是直接写 Playwright 这样的自动化代码来控制浏览器和应用；另一种是通过截图识别界面，然后发出键盘和鼠标指令。

两种方式可以混合使用，遇到有 API 的软件用代码更快更准，遇到没有 API 的软件就用截图加键鼠。

OSWorld-Verified 是专门测试 AI 操作电脑桌面环境的 benchmark，通过截图和键鼠操作来导航界面、完成任务。

GPT-5.4 拿了 75.0%。

人类的成绩是 72.4%。

上一代 GPT-5.2 只有 47.3%。

一代之间涨了 28 个点，而且超过了人类。Claude Opus 4.6 是 72.7%，也被超了。

OSWorld 跑分对比

AI Agent 真正有了可用的“手和眼”。以前的 Agent 只能调 API、写代码，现在它能直接操作任何有图形界面的软件。不需要那个软件有 API，只要有屏幕，它就能操作。

83% 的专业任务超过人类

OpenAI 这次特别强调了一个数据：GDPval 测试里，GPT-5.4 拿了 83%。

GDPval 是 OpenAI 自己搞的一个测试，但含金量不低。它模拟的是 9 个行业、44 个真实职业的工作任务，让 AI 和该领域的专业人士同台竞技。

83% 的意思是，在这些专业任务里，GPT-5.4 有 83% 的概率能做到和专业人士一样好甚至更好。ZDNET 的标题写的是“GPT-5.4 clobbers humans on pro-level work”，在专业工作中碾压人类。

OpenAI 还说幻觉问题明显改善。单条事实错误减少了 33%，整体回复出错的概率降了 18%。对于做金融、法律这些高风险领域的人来说，这个改进很关键。

OfficeChai benchmark 对比表

100 万 token 上下文 + Tool Search

1M token 的上下文窗口是 OpenAI 目前最大的。

这个 1M 窗口目前只在 API 和 Codex 里提供，ChatGPT 的聊天窗口还用不到这么长的上下文。而且超过 200K token 的请求会按更高的价格计费，大上下文不便宜。

OpenAI 开发者社区里有人专门写了指南，建议开发者先想清楚是不是真的需要 1M，大部分场景 200K 够用了。

另一个对开发者很重要的新功能是 Tool Search。

以前调用 AI 模型的时候，如果你有很多工具（MCP server、API 接口等），需要把所有工具的定义都塞进 system prompt 里。工具一多，光描述这些工具就要花掉大量 token。

GPT-5.4 的 Tool Search 改变了这个做法。模型不再一次性加载所有工具定义，而是按需查找。需要哪个工具，现查现用。

OpenAI 用 36 个 MCP server、250 个任务做了测试，启用 Tool Search 后 token 消耗直接降了 47%，准确率不变。

对于搞 AI Agent 开发的人来说，你可以给模型接更多工具而不用担心 token 爆炸。省 token 就是省钱。

The Decoder 详细解析

三巨头打成什么样了

先看整体格局。

GPT-5.4 发布之前，Gemini 3.1 Pro 是最近两周的跑分王者，大部分 benchmark 都是第一。Claude Opus 4.6 上个月发布时也拿过不少第一。现在 GPT-5.4 一出来，很多排名又变了。

在电脑操控能力上（OSWorld-Verified），GPT-5.4 拿了 75.0%，超过 Claude Opus 4.6 的 72.7% 和人类的 72.4%。这是目前所有模型里最高的。

在知识工作能力上（GDPval），GPT-5.4 的 83.0% 也是第一，进步很大，Opus 4.6 是 78.0%。

在网页浏览能力上（BrowseComp），GPT-5.4 Pro 拿了 89.3%，超过 Gemini 3.1 Pro 的 85.9%。

在代码能力上（SWE-Bench Pro），GPT-5.4 是 57.7%，比 Gemini 3.1 Pro 的高一点，但差距不大。

Reddit 上有人吐槽：“只比 5.3 Codex 高了 1 个百分点，有点失望。”

在纯推理能力上（GPQA Diamond），GPT-5.4 Pro 是 94.4%，Gemini 3.1 Pro 是 94.3%，基本打平。

在工具调用能力上（Toolathlon），GPT-5.4 拿了 54.6%，超过 GPT-5.3-Codex 和 Claude 。

三巨头竞争格局

总结一下就是：GPT-5.4 在 Agent 能力（电脑操控、工具调用、网页浏览）和专业工作上全面领先。但在纯推理和编码上，三家差距不大，你追我赶。

定价：单价涨了，但总账可能更便宜

API 定价：$2.50/百万输入 token，$15/百万输出 token。

对比上一代：GPT-5.2 是 $1.75 输入 / $7 输出，GPT-5.4 输入贵了 43%，输出贵了一倍多。乍一看涨价不少。

但 OpenAI 的说法是，GPT-5.4 完成同样的任务用的 token 更少。Tool Search 在工具多的场景下 token 消耗直接降 47%，模型本身的 token 效率也提升了。

当然这需要实际跑过才知道。如果你的场景工具少、上下文短，那确实就是涨价了。

横向对比：

Claude Opus 4.6 的定价是 $15 输入 / $75 输出，贵得多。

Gemini 3.1 Pro 是 $2 输入 / $12 输出，和 GPT-5.4 差不多。

从性价比看，Gemini 3.1 Pro 依然是价格最友好的选择。

ChatGPT 用户方面，GPT-5.4 Thinking 对 Plus（$20/月）、Team 和 Pro 用户开放，正在灰度发布中。

OpenAI 急了

最近半年 OpenAI 的节奏有点乱。

GPT-5.2 去年底发的时候被吐槽“挤牙膏”，编码能力被 Claude 吊打。然后出了 GPT-5.3 Codex 专门补编码短板，紧接着 Gemini 3.1 Pro 两周前发布又把它们都比下去了。

前几天先放了个 GPT-5.3 Instant 稳住阵脚，两天后 GPT-5.4 就来了。节奏很快，明显是在回应竞争压力。

这次 GPT-5.4 最大的亮点不是某个单项跑分，而是“融合”。以前 OpenAI 的模型线很散现在把编码、推理、电脑操控全合到了一个模型里。

把之前散落在不同模型里的能力收回到一个模型。这个方向是对的，Anthropic 的 Claude 从一开始就是一个模型干所有事，OpenAI 现在也往这个方向走了。

对我们来说意味着什么

对于普通用户来说，GPT-5.4 Thinking 替代了之前的 GPT-5.2 Thinking，质量更好，幻觉更少。如果你是 ChatGPT Plus 用户，更新后就能用到。

对于开发者来说，三个能力值得关注：

Computer Use 让 AI Agent 能直接操作任何有图形界面的软件，不再依赖 API。这对做自动化的人来说是个大利好。

Tool Search 对 MCP 生态特别有价值。如果你在用 OpenClaw 或类似的 Agent 框架，接了一堆工具，Token 消耗能直接减半。

1M 上下文窗口对做 RAG 或者处理长文档的场景很实用，不用再费劲做分片了。

**对于跑 OpenClaw 的人来说，这次更新也值得关注。**运行成本能降不少。

在哪能用

ChatGPT 里已经在灰度发布 GPT-5.4 Thinking，Plus/Team/Pro 用户可以在模型选择器里切换。Free 用户目前用不了 Thinking 版本。

aigocode.com 第三方 API 中转也可以用，终端手动指定模型：codex --model gpt-5.4-codex

OpenAI Codex 终端截图