你正在用 Claude Code 写一段爬虫。突然,网站要求登录、验证码、两步认证——传统爬虫遇到这些基本就卡住了。但此刻,你只需要在命令行里说一句:帮我去这个网站登录,然后下载那份报告。
Claude Code 动了。它打开 Chrome,登录,绕过验证,找到报告,下载。全程不需要你动一下鼠标。
这不是科幻演示。这是 Browser Use CLI 3.0 给 AI 编程工具装上超级浏览器后的日常。
从写代码到做事情
2026 年 7 月 3 日,开源浏览器代理框架 Browser Use 正式发布 CLI 3.0。这个版本不是一次简单的版本迭代——它从根本上改变了 AI 模型与浏览器的交互方式。
CLI 3.0 最大的升级,是直接通过 Chrome DevTools Protocol(CDP)控制浏览器。此前,AI agent 操控浏览器的主流方式是调用 Playwright 或 Puppeteer 这类高层自动化框架的封装 API——click()、type()、waitForSelector()——模型需要先理解网页 DOM 结构,再选择对应的工具函数。CLI 3.0 将这些中间层全部砍掉,让模型直接与 Chrome 底层协议对话。
用官方的话说:模型直接用 CDP 操作浏览器,不再经过 click()、type() 那种封装工具,也不用把整棵网页结构塞进上下文。这个不塞 DOM 树的决策,直接带来了两个可量化的改善:token 消耗大幅降低,整体体积缩小 6 倍。底层壳只有几百行代码、几个核心文件。
CDP 控制:从机械义肢到神经接口
Chrome DevTools Protocol 是 Google Chrome 底层暴露的调试与操作协议,允许外部程序直接执行页面操作、读取 DOM 状态、捕获网络请求。传统上,这条协议只被开发者工具、Playwright 这类测试框架使用。
CLI 3.0 把 CDP 变成了 AI 模型的原生接口。模型不再需要理解点击那个 id 为 login-btn 的按钮这种抽象指令,它可以直接通过 CDP 发送底层指令。用类比来理解:传统浏览器自动化好比给 AI 配了一副机械义肢,它必须通过好几层控制协议才能动一下手指。CLI 3.0 则像是给 AI 直接接上了神经接口,想什么,浏览器就做什么。
自我进化与自愈能力
CLI 3.0 最令人兴奋的特性,不是一次性的自动化,而是持续进化的能力。
它会自主沉淀 domain-skills:用过的站点技能会被自动保存。比如它摸索出了某个网站的登录流程、选择器、特殊状态处理方式,下次再遇到同类网站,直接调用已有的技能,越用越顺。
更绝的是自愈能力:当遇到没有现成函数的操作,比如上传文件,agent 不会卡死,而是即时把这个函数写出来,然后接着用。这相当于让 AI 编程工具在运行过程中自己给自己写代码。
三种浏览器,模型无关
CLI 3.0 在接入方式上展现了极强的灵活性。你可以接入电脑上的真实 Chrome,带着现成的标签页、Cookie、插件、登录态一起用,这意味着 AI 可以操作你正在登录的网站,无需重新认证。也可以用 Browser Use Cloud 的云浏览器,适合大规模自动化任务。还可以接入任意 CDP 端点,完全自托管。
更重要的是,它不绑定任何特定模型。Claude、GPT、Codex、甚至本地部署的开源模型,任何足够强的 LLM 套上这层壳,都能变成浏览器 agent。
铲子生意的铲子
Browser Use 的商业模式本身值得玩味。这家从 ETH Zurich 孵化器走出来的团队,由 Magnus Müller 和 Gregor Žunič 联合创立,在 2026 年完成了 1700 万美元的种子轮融资,由 Felicis Ventures 领投。GitHub 上已积累超过 79,000 颗星,是开源 web agent 领域增长最快的项目之一。
但 Browser Use 并不是 OpenAI Operator 的竞争者——它是底层基础设施。正如创始人所说,他们做的不是应用,而是让 AI 能够控制浏览器的接口。
在这个 AI 编程工具(Claude Code、Codex、Cursor、Copilot)疯狂内卷的时代,谁掌握了让 AI 真正操控浏览器的基础设施,谁就掌握了下一个时代的入口。Browser Use 的 CLI 3.0 恰好踩在这个临界点上——它不是卖铲子,它是给所有卖铲子的人提供铲子驱动。
AI 自动化正在被重新定义
CLI 3.0 的发布,释放了一个清晰的信号:AI 编程工具正在从写代码的助手进化为能独立完成任务的数字员工。
当 Claude Code 或 Codex 装上了 Browser Use 这个 skill,它就不再只是帮你写代码,它可以直接帮你完成整个工作流:打开网站、登录、搜索、下载、整理数据、提交表单。你不需要为每个步骤写代码,AI 替你做了所有事情。
这对传统的 RPA 行业是一个警示。当 AI 模型可以直接通过 CDP 操纵浏览器,当每个 AI 编程工具都内置了浏览器 agent 能力,那些建立在录制回放和固定选择器之上的传统 RPA 工具,还有多少存在价值?
当然,CLI 3.0 并非没有问题。直接暴露 CDP 接口给 AI 模型,意味着安全风险敞口显著扩大,一个被注入恶意指令的 agent 可以在浏览器中执行任何操作。此外,某些需要人类视觉判断的交互仍然需要额外的处理层。
但方向已经明确了:AI 的眼睛和手正在被原生接入,浏览器自动化不再是自动化测试的子集,它正在成为 AI 能力的基础设施层。
当你的 AI 编程工具不再只是帮你写代码,而是直接替你搞定一切时,你问自己的问题就不再是 AI 能不能替代我,而是我还能做什么 AI 做不到的事。






快报