工具调用少27%,成功率反升至81%,BrowserBC用行为重写网页Agent效率

2026.06.28 07:21
BrowserBC是NYU ViDA团队开源的浏览器行为克隆项目,用一次人类演示加技能蒸馏替代了每步调用前沿大模型的Web Agent主流范式。在WebArena-Hard上,工具调用减少27%的同时成功率从60%跃升至81%。本文从技术拆解、商业意义和行业局限三个维度分析了这一开源范式的冲击力。

网页Agent圈有一个心照不宣的尴尬。每一次任务,模型都是从零开始学怎么用网页的。

登录、搜索、填表单。这些对人类来说“一次学会,终身不忘”的操作,对当前最聪明的AI来说,每个会话都是一张白卷。它不知道购物网站的“结算”按钮在哪,不理解筛选器是下拉菜单还是滑块,更不记得上一次它刚学会的“如何在这个系统里创建订单”这件事。

所以它只能硬推。用Claude,用GPT-4o,用最贵的模型,在每个步骤上“猜”下一步该做什么。复杂任务跑下来,Token账单比任务本身还长。

这正是NYU ViDA团队开源的BrowserBC要解决的问题。

一个开源项目,两组反常识数据

BrowserBC,全称Browser Behavior Cloning(浏览器行为克隆),是纽约大学可视化、成像与数据分析中心(ViDA)发布的一个开源项目。其核心思路听起来简单得不像研究论文。让人类在网页上完成一次操作流程,录制下来,蒸馏成一个可复用的“技能”,然后派一个便宜的小模型去反复执行。

但就是这个看似朴素的设计,在业界公认的硬基准WebArena-Hard上交出了一组反常识的数据。工具调用次数下降27%,成功率从60%跃升至81%。

用更少的推理步数,干了更多的活,而且干得更准。

GitHub仓库显示,项目由TypeScript和Python主导,2026年6月27日发布了Journey Forge Local v0.1.8版本。上线当天,ViDA团队在X上的官宣帖获得超过1.5万次阅读。

BrowserBC不是第一个提出“让Agent学得更聪明”的项目,但它可能是第一个用如此清晰的数据证明“记录一次,复用无限次”比“每次都用最贵的模型全量推理”更有效的开源产品。

三步走:从人到技能再到执行

BrowserBC的工作流可以分为三个环节。

首先是人类录制。一个用户在浏览器上完成一次目标操作,比如在CRM系统中创建一个新客户并分配销售跟进。系统会记录每一步的DOM状态、点击坐标、输入内容和页面跳转。

拿到原始轨迹之后,ViDA团队用一个较强的模型将这些操作翻译成结构化的技能表示。这一步的关键在于去噪和泛化。同一张网页可能因用户登录状态不同而呈现不同UI,技能必须学到“不变性”,而非机械记忆点击坐标。一个错误的点击位置记录,可能导致整个技能在另一台设备上彻底失效。

当技能被蒸馏成型,它被注入一个更轻量的推理模型,以更少的步骤完成同类任务。不再需要每次调用Claude或GPT-4o,一个更小、更便宜的模型就能胜任。

这本质上是将人类先验知识注入Agent的方式,从“每步提示词工程”升级为“一次演示,终身技能”。

为什么这项技术到现在才出现

一个值得追问的问题。这么直观的思路,为什么2026年才出现?

原因在于行业惯性。过去两年,Web Agent的主流研究范式一直沿着“更强的模型带来更好的推理和更高的成功率”这条路走。浏览器Agent的每一步都依赖前沿模型。Agent调用LLM,LLM调用Function Calling或Tool Use,每一步都在消耗大量Token。整个行业形成了“好成绩必须配好模型”的思维定式。

这不是说这条路走不通。Browser Use、Skyvern等开源项目已经证明了大模型驱动的Web Agent确实能完成复杂的多步任务。但这条路有一个结构性天花板。每次调用的成本是固定的,每个新用户的开荒成本都是满额的。即使Agent的推理变得越来越聪明,每步的Token消耗不会凭空消失。

BrowserBC走了完全相反的路。先为Agent“教师”付一次学费,然后用“学生”免费上学。教师模型做一次高质量演示的成本是固定的,然后被无限次摊销。

这实际上是行为克隆(Behavior Cloning)在机器人领域经典范式的复现,只是这次从机械臂换成了浏览器Tab。机器人领域早已证明,一次专家演示结合行为克隆可以训练出高效的策略网络。ViDA团队的工作,本质上是在说同样的逻辑同样适用于数字世界的网页操作。

商业意义上的效率革命

如果BrowserBC的基准数据在更大规模的生产环境中也能成立,它的商业回报可能是乘数级的。

试想一个每天运行上千次Web Agent任务的企业。传统模式下,每次任务需要十来次工具调用,每次调用都消耗前沿模型的高额Token。模型越好,调用越贵。

BrowserBC模式则完全不同。一次技能录制的边际成本是有上限的,此后每次执行全部由小模型完成。工具调用减少了近三成,而参与推理的模型参数量级可能差了几个数量级。失败率从40%降至19%,意味着需要人工兜底的任务量腰斩。

这不是渐进式优化,是对传统Agent成本结构的底层重构。

不能回避的两个问题

数字漂亮,但BrowserBC仍然要面对两个关键拷问。

首先是技能的泛化边界。一次录制即泛化的前提,是目标网页的交互范式相对稳定。如果企业系统经历大型改版,从React重构到Angular,或者订单流程被重新设计,录好的技能是否会失效?ViDA团队在GitHub上主要展示了学术基准测试的结果,实际生产环境的鲁棒性尚待验证。

另一个问题是技能的规模化治理。当一家企业有几十甚至上百个BrowserBC技能,每个对应一个OA系统、一个CRM模块、一个数据看板时,技能的创建、验证、版本管理和报废就成了一项工程挑战。小团队的“录制一次就完事”在规模面前可能变成“维护技能的技能”。这个问题的复杂程度,和微服务治理的演进路径有惊人的相似之处。

当所有Agent都在追求更聪明

BrowserBC选择了一个精准的时间点。2026年,Web Agent赛道正在从“证明能做”的炫技阶段,转向“如何便宜地做好”的产品化阶段。OpenAI的CUA、Browser Use、Skyvern、Stagehand等工具的竞争已经从功能扩展到性价比和运营效率。

在这个节点上,行为克隆和技能蒸馏的范式给了行业一个新的可能。不一定每次都要用旗舰模型推理。让Mini跑就行。

这并不是说前沿模型将在Agent架构中消失。更现实的未来是混合架构。教师大模型负责技能创造和边界校验,学生小模型负责日常执行,Human-in-the-Loop负责异常兜底。

浏览器Agent终于开始像人学习了。犯错一次,记住教训,下次不错。

“记录一次,复用无限次。”这个AI圈说了很多年但很少兑现的承诺,BrowserBC让它离落地更近了一步。如果这套范式能通过真实生产环境的考验,它可能会像Docker之于应用部署一样,不是取代底层模型,而是从根本上改变Agent的交付和使用方式。

当所有Agent都在追求更聪明时,也许更聪明的做法是让Agent学会记住。

作品声明:内容由AI生成