给 Claude Code 装上超级浏览器，Browser Use CLI 3.0 重新定义 AI 自动化

开源浏览器代理框架 Browser Use 发布 CLI 3.0，可作为 skill 嵌入 Claude Code、Codex 等 AI 编程工具。通过直接基于 Chrome DevTools Protocol 控制浏览器，体积缩小 6 倍、token 消耗大幅降低，并具备自我进化和自愈能力。当 AI 编程工具获得原生浏览器操控能力，传统 RPA 和自动化赛道正在被重新定义。

你正在用 Claude Code 写一段爬虫。突然，网站要求登录、验证码、两步认证——传统爬虫遇到这些基本就卡住了。但此刻，你只需要在命令行里说一句：帮我去这个网站登录，然后下载那份报告。

Claude Code 动了。它打开 Chrome，登录，绕过验证，找到报告，下载。全程不需要你动一下鼠标。

这不是科幻演示。这是 Browser Use CLI 3.0 给 AI 编程工具装上超级浏览器后的日常。

从写代码到做事情

2026 年 7 月 3 日，开源浏览器代理框架 Browser Use 正式发布 CLI 3.0。这个版本不是一次简单的版本迭代——它从根本上改变了 AI 模型与浏览器的交互方式。

CLI 3.0 最大的升级，是直接通过 Chrome DevTools Protocol（CDP）控制浏览器。此前，AI agent 操控浏览器的主流方式是调用 Playwright 或 Puppeteer 这类高层自动化框架的封装 API——click()、type()、waitForSelector()——模型需要先理解网页 DOM 结构，再选择对应的工具函数。CLI 3.0 将这些中间层全部砍掉，让模型直接与 Chrome 底层协议对话。

用官方的话说：模型直接用 CDP 操作浏览器，不再经过 click()、type() 那种封装工具，也不用把整棵网页结构塞进上下文。这个不塞 DOM 树的决策，直接带来了两个可量化的改善：token 消耗大幅降低，整体体积缩小 6 倍。底层壳只有几百行代码、几个核心文件。

CDP 控制：从机械义肢到神经接口

Chrome DevTools Protocol 是 Google Chrome 底层暴露的调试与操作协议，允许外部程序直接执行页面操作、读取 DOM 状态、捕获网络请求。传统上，这条协议只被开发者工具、Playwright 这类测试框架使用。

CLI 3.0 把 CDP 变成了 AI 模型的原生接口。模型不再需要理解点击那个 id 为 login-btn 的按钮这种抽象指令，它可以直接通过 CDP 发送底层指令。用类比来理解：传统浏览器自动化好比给 AI 配了一副机械义肢，它必须通过好几层控制协议才能动一下手指。CLI 3.0 则像是给 AI 直接接上了神经接口，想什么，浏览器就做什么。

自我进化与自愈能力

CLI 3.0 最令人兴奋的特性，不是一次性的自动化，而是持续进化的能力。

它会自主沉淀 domain-skills：用过的站点技能会被自动保存。比如它摸索出了某个网站的登录流程、选择器、特殊状态处理方式，下次再遇到同类网站，直接调用已有的技能，越用越顺。

更绝的是自愈能力：当遇到没有现成函数的操作，比如上传文件，agent 不会卡死，而是即时把这个函数写出来，然后接着用。这相当于让 AI 编程工具在运行过程中自己给自己写代码。

三种浏览器，模型无关

CLI 3.0 在接入方式上展现了极强的灵活性。你可以接入电脑上的真实 Chrome，带着现成的标签页、Cookie、插件、登录态一起用，这意味着 AI 可以操作你正在登录的网站，无需重新认证。也可以用 Browser Use Cloud 的云浏览器，适合大规模自动化任务。还可以接入任意 CDP 端点，完全自托管。

更重要的是，它不绑定任何特定模型。Claude、GPT、Codex、甚至本地部署的开源模型，任何足够强的 LLM 套上这层壳，都能变成浏览器 agent。

铲子生意的铲子

Browser Use 的商业模式本身值得玩味。这家从 ETH Zurich 孵化器走出来的团队，由 Magnus Müller 和 Gregor Žunič 联合创立，在 2026 年完成了 1700 万美元的种子轮融资，由 Felicis Ventures 领投。GitHub 上已积累超过 79,000 颗星，是开源 web agent 领域增长最快的项目之一。

但 Browser Use 并不是 OpenAI Operator 的竞争者——它是底层基础设施。正如创始人所说，他们做的不是应用，而是让 AI 能够控制浏览器的接口。

在这个 AI 编程工具（Claude Code、Codex、Cursor、Copilot）疯狂内卷的时代，谁掌握了让 AI 真正操控浏览器的基础设施，谁就掌握了下一个时代的入口。Browser Use 的 CLI 3.0 恰好踩在这个临界点上——它不是卖铲子，它是给所有卖铲子的人提供铲子驱动。

AI 自动化正在被重新定义

CLI 3.0 的发布，释放了一个清晰的信号：AI 编程工具正在从写代码的助手进化为能独立完成任务的数字员工。

当 Claude Code 或 Codex 装上了 Browser Use 这个 skill，它就不再只是帮你写代码，它可以直接帮你完成整个工作流：打开网站、登录、搜索、下载、整理数据、提交表单。你不需要为每个步骤写代码，AI 替你做了所有事情。

这对传统的 RPA 行业是一个警示。当 AI 模型可以直接通过 CDP 操纵浏览器，当每个 AI 编程工具都内置了浏览器 agent 能力，那些建立在录制回放和固定选择器之上的传统 RPA 工具，还有多少存在价值？

当然，CLI 3.0 并非没有问题。直接暴露 CDP 接口给 AI 模型，意味着安全风险敞口显著扩大，一个被注入恶意指令的 agent 可以在浏览器中执行任何操作。此外，某些需要人类视觉判断的交互仍然需要额外的处理层。

但方向已经明确了：AI 的眼睛和手正在被原生接入，浏览器自动化不再是自动化测试的子集，它正在成为 AI 能力的基础设施层。

当你的 AI 编程工具不再只是帮你写代码，而是直接替你搞定一切时，你问自己的问题就不再是 AI 能不能替代我，而是我还能做什么 AI 做不到的事。