100万 Token + 接管鼠标：GPT-5.4 正把 AI 推向“数字员工”-钛媒体官方网站

长上下文、推理计算与 Computer-Use 三条技术路线开始汇合，大模型正在从聊天助手演化为可以理解任务并执行工作的 AI 代理。

如果一个 AI 能够阅读整套项目文档，在复杂问题上进行长时间推理，并且自己操作电脑完成任务，它就不再只是一个聊天机器人。

它更像是一种新的软件形态。

随着 OpenAI 推出 GPT-5.4 Thinking 与 GPT-5.4 Pro，这种变化正在变得具体。100 万 Token 上下文、推理时计算模式，以及原生计算机操作能力，第一次在同一代模型中同时出现。

当这些能力开始汇合，大模型的角色也在发生转变——从回答问题，转向直接完成工作。

GPT-5.4：一次围绕“执行能力”的模型升级

2026 年 3 月初，硅谷再次进入密集的 AI 发布周期。

在多轮业内传闻之后，OpenAI 推出了 GPT-5.4 系列模型。与过去几次升级主要强化聊天体验或推理能力不同，这一版本的能力组合明显指向一个更实际的目标：让 AI 更直接地参与真实工作流程。

公开信息显示，模型的核心能力包括：最高 100 万 Token 上下文窗口、GPT-5.4 Thinking 推理模式、Computer-Use 原生计算机操作能力，以及 Tool Search 工具检索机制。这些能力并非单点突破，而是围绕“执行能力”的系统性升级。

在桌面任务基准 OSWorld benchmark 的测试中，模型完成任务的成功率约为 75%，略高于该 benchmark 的人类测试基线约 72%。而在职业任务评估 GDPval benchmark 中，模型在 44 种知识型工作任务中约 83% 的评分进入专家区间。

这些指标本身或许仍需要更多实际验证，但它们指向的趋势非常明确：AI 正在从信息处理工具变成任务执行系统。

企业在部署大模型时，一直面临一个结构性限制——上下文窗口。早期模型只能处理有限的信息量，这迫使企业构建复杂的 Retrieval-Augmented Generation（RAG）系统：文档被拆分、向量化、索引，再在查询时重新拼接给模型。

这种架构在过去两年成为 AI 工程的标准方案，但也带来了新的复杂度。数据被切块后，上下文关系容易丢失；检索系统本身也增加了延迟与维护成本。

GPT-5.4 将上下文窗口扩展到 100 万 Token。这意味着模型在单次任务中理论上可以处理完整代码库、长期财务记录，甚至整个项目文档集合。

RAG 并不会消失，因为权限控制、实时数据更新以及索引效率仍然是企业系统不可替代的一部分。但在很多分析型任务中，超长上下文确实降低了对复杂检索架构的依赖。

更重要的是，模型开始具备一种过去难以实现的能力：理解完整项目，而不是零散信息片段。

如果说长上下文改变的是理解能力，那么 Computer-Use 改变的则是执行能力。

在这一模式下，模型可以通过视觉理解软件界面，并模拟鼠标点击、键盘输入以及应用导航等操作。这意味着 AI 不再只通过 API 调用系统，而是可以像用户一样直接操作软件界面。

这一变化对企业自动化领域尤其重要。过去二十年，大量企业流程自动化依赖 Robotic Process Automation（RPA）系统，其核心逻辑是通过脚本执行固定步骤，例如录入数据或在系统之间复制信息。

而具备视觉理解与规划能力的 AI，则可能承担更复杂的任务，例如：

RPA 并不会立即被取代，但 AI 代理已经开始进入它们长期占据的自动化领域。

GPT-5.4 的另一项关键变化，是 Thinking 模式。这一模式并不是简单扩大模型规模，而是在推理阶段投入更多计算资源，从而提高复杂任务的可靠性。

这代表着大模型发展的一条重要路线：推理时计算（compute-at-inference）。过去十年，模型能力主要依赖训练阶段的大规模数据与算力，但随着预训练收益逐渐递减，越来越多公司开始把算力投入到推理阶段。

类似趋势也出现在其他 AI 公司，例如 Anthropic 的深度推理模式，以及 Google 在复杂任务中的推理系统。

这种模式的特点很明显：响应时间更长、计算成本更高，但复杂任务的成功率明显提高。在法律分析、财务建模或复杂决策任务中，这类“慢思考 AI”反而更接近真实的专业工作方式。

相比百万 Token 与 computer-use，Tool Search 可能是这次发布中最容易被忽视的一项升级。

过去，当模型需要调用工具时，开发者通常必须把所有工具说明都加载进提示词中。这不仅占用上下文空间，也增加了 Token 成本。

Tool Search 改变了这一机制：模型可以在需要时检索工具定义，而不是预加载全部工具。

在多工具系统中，这种方式可显著减少工具相关的 Token 消耗。对于构建复杂 AI 系统的开发者而言，这类架构优化往往比单纯提升模型能力更重要。

因为真正的大规模 AI 应用，通常由几十甚至上百个工具共同组成。

如果把这些变化放在一起观察，就会发现 AI 竞争的重心正在发生变化。

过去几年，大模型竞争主要集中在规模、参数与价格。但现在，竞争正在逐渐转向另一件事情：谁能让 AI 真正完成任务。

在这个维度上，不同公司的策略逐渐分化：

这场竞争的终点，很可能不是更聪明的聊天机器人，而是一种新的软件形态。

一种可以理解任务、规划步骤并执行操作的 AI 工作代理。

从更长的上下文，到更强的推理，再到直接操作软件界面，大模型正在同时获得三种能力：理解信息、思考问题、执行操作。

当这三种能力结合在一起时，AI 就不再只是软件的一个接口，而可能逐渐成为新的软件平台。

在这种结构下，大模型不仅会改变搜索、写作或编程工具，还可能重新塑造企业软件的基本形态。

问题已经不再是 AI 能否理解工作。而是 AI 何时开始真正接管工作流程。（本文首发钛媒体App , 作者｜硅谷Tech news，编辑｜秦聪慧）