给 Claude Code 装上超级浏览器,Browser Use CLI 3.0 重新定义 AI 自动化

2026.07.03 20:19
开源浏览器代理框架 Browser Use 发布 CLI 3.0,可作为 skill 嵌入 Claude Code、Codex 等 AI 编程工具。通过直接基于 Chrome DevTools Protocol 控制浏览器,体积缩小 6 倍、token 消耗大幅降低,并具备自我进化和自愈能力。当 AI 编程工具获得原生浏览器操控能力,传统 RPA 和自动化赛道正在被重新定义。

你正在用 Claude Code 写一段爬虫。突然,网站要求登录、验证码、两步认证——传统爬虫遇到这些基本就卡住了。但此刻,你只需要在命令行里说一句:帮我去这个网站登录,然后下载那份报告。

Claude Code 动了。它打开 Chrome,登录,绕过验证,找到报告,下载。全程不需要你动一下鼠标。

这不是科幻演示。这是 Browser Use CLI 3.0 给 AI 编程工具装上超级浏览器后的日常。

从写代码到做事情

2026 年 7 月 3 日,开源浏览器代理框架 Browser Use 正式发布 CLI 3.0。这个版本不是一次简单的版本迭代——它从根本上改变了 AI 模型与浏览器的交互方式。

CLI 3.0 最大的升级,是直接通过 Chrome DevTools Protocol(CDP)控制浏览器。此前,AI agent 操控浏览器的主流方式是调用 Playwright 或 Puppeteer 这类高层自动化框架的封装 API——click()、type()、waitForSelector()——模型需要先理解网页 DOM 结构,再选择对应的工具函数。CLI 3.0 将这些中间层全部砍掉,让模型直接与 Chrome 底层协议对话。

用官方的话说:模型直接用 CDP 操作浏览器,不再经过 click()、type() 那种封装工具,也不用把整棵网页结构塞进上下文。这个不塞 DOM 树的决策,直接带来了两个可量化的改善:token 消耗大幅降低,整体体积缩小 6 倍。底层壳只有几百行代码、几个核心文件。

CDP 控制:从机械义肢到神经接口

Chrome DevTools Protocol 是 Google Chrome 底层暴露的调试与操作协议,允许外部程序直接执行页面操作、读取 DOM 状态、捕获网络请求。传统上,这条协议只被开发者工具、Playwright 这类测试框架使用。

CLI 3.0 把 CDP 变成了 AI 模型的原生接口。模型不再需要理解点击那个 id 为 login-btn 的按钮这种抽象指令,它可以直接通过 CDP 发送底层指令。用类比来理解:传统浏览器自动化好比给 AI 配了一副机械义肢,它必须通过好几层控制协议才能动一下手指。CLI 3.0 则像是给 AI 直接接上了神经接口,想什么,浏览器就做什么。

自我进化与自愈能力

CLI 3.0 最令人兴奋的特性,不是一次性的自动化,而是持续进化的能力。

它会自主沉淀 domain-skills:用过的站点技能会被自动保存。比如它摸索出了某个网站的登录流程、选择器、特殊状态处理方式,下次再遇到同类网站,直接调用已有的技能,越用越顺。

更绝的是自愈能力:当遇到没有现成函数的操作,比如上传文件,agent 不会卡死,而是即时把这个函数写出来,然后接着用。这相当于让 AI 编程工具在运行过程中自己给自己写代码。

三种浏览器,模型无关

CLI 3.0 在接入方式上展现了极强的灵活性。你可以接入电脑上的真实 Chrome,带着现成的标签页、Cookie、插件、登录态一起用,这意味着 AI 可以操作你正在登录的网站,无需重新认证。也可以用 Browser Use Cloud 的云浏览器,适合大规模自动化任务。还可以接入任意 CDP 端点,完全自托管。

更重要的是,它不绑定任何特定模型。Claude、GPT、Codex、甚至本地部署的开源模型,任何足够强的 LLM 套上这层壳,都能变成浏览器 agent。

铲子生意的铲子

Browser Use 的商业模式本身值得玩味。这家从 ETH Zurich 孵化器走出来的团队,由 Magnus Müller 和 Gregor Žunič 联合创立,在 2026 年完成了 1700 万美元的种子轮融资,由 Felicis Ventures 领投。GitHub 上已积累超过 79,000 颗星,是开源 web agent 领域增长最快的项目之一。

但 Browser Use 并不是 OpenAI Operator 的竞争者——它是底层基础设施。正如创始人所说,他们做的不是应用,而是让 AI 能够控制浏览器的接口。

在这个 AI 编程工具(Claude Code、Codex、Cursor、Copilot)疯狂内卷的时代,谁掌握了让 AI 真正操控浏览器的基础设施,谁就掌握了下一个时代的入口。Browser Use 的 CLI 3.0 恰好踩在这个临界点上——它不是卖铲子,它是给所有卖铲子的人提供铲子驱动。

AI 自动化正在被重新定义

CLI 3.0 的发布,释放了一个清晰的信号:AI 编程工具正在从写代码的助手进化为能独立完成任务的数字员工。

当 Claude Code 或 Codex 装上了 Browser Use 这个 skill,它就不再只是帮你写代码,它可以直接帮你完成整个工作流:打开网站、登录、搜索、下载、整理数据、提交表单。你不需要为每个步骤写代码,AI 替你做了所有事情。

这对传统的 RPA 行业是一个警示。当 AI 模型可以直接通过 CDP 操纵浏览器,当每个 AI 编程工具都内置了浏览器 agent 能力,那些建立在录制回放和固定选择器之上的传统 RPA 工具,还有多少存在价值?

当然,CLI 3.0 并非没有问题。直接暴露 CDP 接口给 AI 模型,意味着安全风险敞口显著扩大,一个被注入恶意指令的 agent 可以在浏览器中执行任何操作。此外,某些需要人类视觉判断的交互仍然需要额外的处理层。

但方向已经明确了:AI 的眼睛和手正在被原生接入,浏览器自动化不再是自动化测试的子集,它正在成为 AI 能力的基础设施层。

当你的 AI 编程工具不再只是帮你写代码,而是直接替你搞定一切时,你问自己的问题就不再是 AI 能不能替代我,而是我还能做什么 AI 做不到的事。

作品声明:内容由AI生成