Interactions API 全面上线：Google 正式宣告 AI 开发从「调模型」进入「管 Agent」时代

Google 于 2026 年 6 月 22 日正式将 Interactions API 推上 GA，并将其定位为 Gemini 模型和 Agent 的首要接口。这一发布标志着 Google 在 AI 基础设施层面完成了一次范式转向——从无状态的「请求-响应」API 切换到服务端状态管理的「交互」API，将 Agent 能力直接嵌入 API 层而非做成独立框架。深度分析其技术架构、定价策略、竞争差异与潜在风险。

2026年6月22日，Google 官方账号在 X 上发布了一条看似普通的推文：「Today, the Interactions API is now generally available as our primary interface for Gemini models and agents.」

这不是一个版本号更新。这是一次基础设施层面的范式转向。

从此，你不再「调用模型」，而是「发起一次交互」。模型、Agent、工具链、状态管理——所有曾经需要开发者手动拼装的零件，全部被塞进了一个统一的 API 端点里。

一件被低估的发布

Interactions API 从 2025 年 12 月进入公开 Beta 测试，历时近 7 个月迭代后正式 GA。Google 在官方博客中明确将其定位为 Gemini 模型和 Agent 的首要接口（primary interface）——不是之一，是首要。

传统上，开发者构建 AI 应用需要同时维护至少两套接口：用 Gemini API（generateContent）调用模型做推理，再用 Agent Development Kit（ADK）创建和管理 Agent。一套是「问答」，一套是「编排」。

Interactions API 把这一切合并了。

在谷歌开发者博客的官方公告中，这个 API 的核心能力包括：传入 model ID 做标准推理或传入 agent ID 做长周期自主任务；在一次交互中混合调用 Google Search、Google Maps 等内置工具和自定义函数；设置 background=True 让耗时任务在服务端异步执行；为 Agent 分配完整的远程 Linux 沙箱环境，让它写代码、浏览网页、管理文件。Google 甚至给出了一个默认的沙箱 Agent 名称——Antigravity。

BuildrLab 在 6 月 22 日的分析文章中总结道：「Google 不是在添加一个新端点，而是在告诉开发者：Agent 形态的 API 是 Gemini 新项目的默认路径。」

从「对话」到「交互」：单一接口背后的架构重构

如果只看表面，Interactions API 似乎只是把几个 API 合并成了一个。但它的技术细节揭示了更深层的架构变革。

状态：从客户端搬到服务端

在旧模型中，每次调用都是无状态的。开发者需要手动将所有历史消息拼进 messages 数组、手动跟踪 tool call 和 tool result 的对应关系、手动管理 context window 防止溢出、手动处理超时和重试。Google AI 产品负责人 Shubham Saboo 在评价这一痛点时说：「你 90% 的时间花在管道上，10% 的时间花在真正的 AI 逻辑上。」

Interactions API 把状态管理从客户端搬到了服务端：每个交互由 interaction ID 唯一标识，Google 自动保存状态；付费用户的历史交互可留存 55 天；交互中的每个动作都是类型化的步骤（typed step）——用户输入、模型思考、函数调用、模型输出，各有清晰的数据结构。不再需要手动拼接数组，也不存在「消息格式上下文不符」的问题。

从 messages 到 steps：数据模型的质变

官方公告中提到的一个关键细节：Interactions API 废弃了基于角色（role-based）的消息格式，改用类型化步骤。在旧格式中你写的是 {role: "user", content: "..."} 和 {role: "model", content: "..."}。在新格式中，系统记录的是 user_input → thought → function_call → function_result → model_output 的完整链路。

这一变化本质上是将「对话」数据模型升级为「交互」数据模型——前者适合聊天机器人，后者适合 Agent 系统。对于构建多步骤 Agent 工作流的团队来说，这消除了大量 boilerplate 代码。

Flex 层的商业逻辑：50% 降价的潜台词

Interactions API GA 同时带来了新的定价模型——这或许是整个发布中最容易被忽视、但长期影响最大的部分。

Google 推出了两档定价：Priority 层面向聊天、实时问答等需要即时响应的场景，按常规定价；Flex 层面向后台分析、批量处理、Deep Research 等可以容忍延迟的任务，相比 Priority 降低 50% 的成本。

50% 的成本降幅意味着什么？以 Deep Research 为例，一次深度研究可能需要调用数十次模型推理、执行多次代码、搜索多个网页。在旧模式下，每一次推理都按实时定价计费，成本很快就会失控。Flex 层为这类「慢但深」的 Agent 任务提供了一条经济上可持续的路径。

与此同时，付费用户的交互状态保留 55 天——这意味着一个 Deep Research 任务的结果，开发者可以在近两个月内随时回溯，而无需自己实现持久化逻辑。对构建「长期记忆」型 Agent 的团队来说，这降低了一整轮的工程复杂度。

Google 的差异化棋局：不是框架，是 API 本身

Google 在这个时间点把 Interactions API 推上 GA，竞争意图不言自明。

2026 年上半年，AI Agent 框架之争已经白热化。OpenAI 发布了 Agents SDK，主打开发者易用性和 GPT 生态深度集成。Anthropic 的 Claude Agent SDK 走的是「计算机原生操作」路线。LangGraph 在企业级多 Agent 编排上积累了深厚势能。CrewAI 凭借简洁的多 Agent 协作模式吸引了 52,000+ GitHub Stars。

在这个拥挤的赛道上，Google 的策略不是再做一个 Agent 框架——而是把 Agent 能力直接嵌入 API 层。

这是一个根本性的差异。OpenAI 的策略是让 Agent SDK 成为 GPT 模型之上的一个框架层，框架与模型分离。Google 的策略是让 Agent 能力成为 API 的原生属性，模型和 Agent 通过同一个接口访问。

前者让开发者可以灵活选择框架，但需要额外的集成工作；后者降低了开发者的认知负担——「一个接口解决一切」——但也意味着更强的平台绑定。

Google 的赌注是：在 Agent 时代，降低认知复杂度比保持集成灵活性更重要。当大多数开发者还在纠结「该用哪个 Agent 框架」时，Google 直接说：你不需要选择。API 里已经有了。

BuildrLab 的报道提到，LiteLLM、Eigent、Agno 等第三方库已经在早期阶段实现了对 Interactions API 的支持。这一信号表明，社区对「API 原生 Agent」的接受度正在快速升温。

暗面：平台锁定的代价

Interactions API 的 GA 并非没有阴影。

第一个问题：数据控制权。 Managed Agents 意味着更多代码在 Google 侧运行。当你把 Agent 的沙箱环境交给 Google 管理时，数据隐私、合规审计、日志访问的控制权也随之转移。对于处理敏感数据或受监管行业（金融、医疗、政府）的团队来说，这需要审慎评估。

第二个问题：能力缺口。 Google 承认 Gemini Omni 支持仍在「coming soon」状态。这意味着多模态实时交互的关键能力还未完全就绪。对于需要视觉、语音和文本融合交互的 Agent 场景，开发者还需要等待。

第三个问题：平台锁定。 一旦团队围绕 Interactions API 构建了完整的 Agent 系统，迁移到 OpenAI、Anthropic 或 AWS Bedrock 的成本将显著上升。虽然 Google 不认为这是个问题——但对于坚持多云策略的企业，这是一个需要严肃评估的远期成本。

BuildrLab 给出的务实建议是：「新项目从此接口起步，旧项目不需要恐慌迁移，但需要审计哪些工作流适合迁移。」

三个隐藏信号

将 Interactions API 的 GA 放在 2026 年 6 月的行业背景下看，能揭示三个重要的趋势信号。

信号一：模型正在从「品牌」退化为「资源」

当同一个接口可以访问模型和 Agent 时，模型本身的品牌价值正在被稀释。用户不关心调用的是 Gemini 3 Pro 还是 Gemini 3.5 Flash——他们关心的是 Agent 能否在合理时间内完成一个深度研究任务。模型正在从「被调用的对象」变成「被编排的资源」。这是「模型即服务」转向「模型即基础设施」的标志性节点。

信号二：Agent 是比 API Key 更贵的「数字劳动力」

Flex 层 50% 的折扣实际上揭示了 Google 对 Agent 工作负载的价值判断：一个 Agent 执行一次深度研究，消耗的计算资源远高于一次简单的文本生成。但它的产出价值也远高于后者。Agent 不再是「AI 的一种调用方式」，它是 AI 商业化的核心产品形态。当 Google 愿意为 Agent 任务提供 50% 的折扣来吸引开发者，说明它把赌注压在了 Agent 工作负载的增长上。

信号三：API 战争的新战场——「开发范式」的锁定力

2023–2024 年，Google 和 OpenAI 在模型能力上正面交锋；2025 年，它们在 Agent 框架上各自布局；2026 年，战争的主战场已经转移到 API 设计本身——谁能定义「开发者与 AI 交互的标准方式」，谁就能在未来的生态中掌握定价权和分配权。

Interactions API 的设计逻辑——服务端状态管理、类型化交互步骤、统一的模型-Agent 接口——正在推高整个行业的 API 设计标准。当 Google 走出这一步，OpenAI 和 Anthropic 也会被倒逼着做出类似的选择。

开发者不用再为「如何管状态」「如何拼消息」「如何把手动管道变成自动化工具」这些本该由平台解决的问题而烦恼。

模型在退后，交互在向前。API 不再是你问它答的通道——它是一个可以独立行动的「数字员工」的起点。