工具调用少27%，成功率反升至81%，BrowserBC用行为重写网页Agent效率

BrowserBC是NYU ViDA团队开源的浏览器行为克隆项目，用一次人类演示加技能蒸馏替代了每步调用前沿大模型的Web Agent主流范式。在WebArena-Hard上，工具调用减少27%的同时成功率从60%跃升至81%。本文从技术拆解、商业意义和行业局限三个维度分析了这一开源范式的冲击力。

网页Agent圈有一个心照不宣的尴尬。每一次任务，模型都是从零开始学怎么用网页的。

所以它只能硬推。用Claude，用GPT-4o，用最贵的模型，在每个步骤上“猜”下一步该做什么。复杂任务跑下来，Token账单比任务本身还长。

这正是NYU ViDA团队开源的BrowserBC要解决的问题。

一个开源项目，两组反常识数据

BrowserBC，全称Browser Behavior Cloning（浏览器行为克隆），是纽约大学可视化、成像与数据分析中心（ViDA）发布的一个开源项目。其核心思路听起来简单得不像研究论文。让人类在网页上完成一次操作流程，录制下来，蒸馏成一个可复用的“技能”，然后派一个便宜的小模型去反复执行。

但就是这个看似朴素的设计，在业界公认的硬基准WebArena-Hard上交出了一组反常识的数据。工具调用次数下降27%，成功率从60%跃升至81%。

用更少的推理步数，干了更多的活，而且干得更准。

GitHub仓库显示，项目由TypeScript和Python主导，2026年6月27日发布了Journey Forge Local v0.1.8版本。上线当天，ViDA团队在X上的官宣帖获得超过1.5万次阅读。

BrowserBC不是第一个提出“让Agent学得更聪明”的项目，但它可能是第一个用如此清晰的数据证明“记录一次，复用无限次”比“每次都用最贵的模型全量推理”更有效的开源产品。

三步走：从人到技能再到执行

BrowserBC的工作流可以分为三个环节。

首先是人类录制。一个用户在浏览器上完成一次目标操作，比如在CRM系统中创建一个新客户并分配销售跟进。系统会记录每一步的DOM状态、点击坐标、输入内容和页面跳转。

拿到原始轨迹之后，ViDA团队用一个较强的模型将这些操作翻译成结构化的技能表示。这一步的关键在于去噪和泛化。同一张网页可能因用户登录状态不同而呈现不同UI，技能必须学到“不变性”，而非机械记忆点击坐标。一个错误的点击位置记录，可能导致整个技能在另一台设备上彻底失效。

当技能被蒸馏成型，它被注入一个更轻量的推理模型，以更少的步骤完成同类任务。不再需要每次调用Claude或GPT-4o，一个更小、更便宜的模型就能胜任。

这本质上是将人类先验知识注入Agent的方式，从“每步提示词工程”升级为“一次演示，终身技能”。

为什么这项技术到现在才出现

一个值得追问的问题。这么直观的思路，为什么2026年才出现？

原因在于行业惯性。过去两年，Web Agent的主流研究范式一直沿着“更强的模型带来更好的推理和更高的成功率”这条路走。浏览器Agent的每一步都依赖前沿模型。Agent调用LLM，LLM调用Function Calling或Tool Use，每一步都在消耗大量Token。整个行业形成了“好成绩必须配好模型”的思维定式。

这不是说这条路走不通。Browser Use、Skyvern等开源项目已经证明了大模型驱动的Web Agent确实能完成复杂的多步任务。但这条路有一个结构性天花板。每次调用的成本是固定的，每个新用户的开荒成本都是满额的。即使Agent的推理变得越来越聪明，每步的Token消耗不会凭空消失。

BrowserBC走了完全相反的路。先为Agent“教师”付一次学费，然后用“学生”免费上学。教师模型做一次高质量演示的成本是固定的，然后被无限次摊销。

这实际上是行为克隆（Behavior Cloning）在机器人领域经典范式的复现，只是这次从机械臂换成了浏览器Tab。机器人领域早已证明，一次专家演示结合行为克隆可以训练出高效的策略网络。ViDA团队的工作，本质上是在说同样的逻辑同样适用于数字世界的网页操作。

商业意义上的效率革命

如果BrowserBC的基准数据在更大规模的生产环境中也能成立，它的商业回报可能是乘数级的。

试想一个每天运行上千次Web Agent任务的企业。传统模式下，每次任务需要十来次工具调用，每次调用都消耗前沿模型的高额Token。模型越好，调用越贵。

BrowserBC模式则完全不同。一次技能录制的边际成本是有上限的，此后每次执行全部由小模型完成。工具调用减少了近三成，而参与推理的模型参数量级可能差了几个数量级。失败率从40%降至19%，意味着需要人工兜底的任务量腰斩。

这不是渐进式优化，是对传统Agent成本结构的底层重构。

不能回避的两个问题

数字漂亮，但BrowserBC仍然要面对两个关键拷问。

首先是技能的泛化边界。一次录制即泛化的前提，是目标网页的交互范式相对稳定。如果企业系统经历大型改版，从React重构到Angular，或者订单流程被重新设计，录好的技能是否会失效？ViDA团队在GitHub上主要展示了学术基准测试的结果，实际生产环境的鲁棒性尚待验证。

另一个问题是技能的规模化治理。当一家企业有几十甚至上百个BrowserBC技能，每个对应一个OA系统、一个CRM模块、一个数据看板时，技能的创建、验证、版本管理和报废就成了一项工程挑战。小团队的“录制一次就完事”在规模面前可能变成“维护技能的技能”。这个问题的复杂程度，和微服务治理的演进路径有惊人的相似之处。

当所有Agent都在追求更聪明

BrowserBC选择了一个精准的时间点。2026年，Web Agent赛道正在从“证明能做”的炫技阶段，转向“如何便宜地做好”的产品化阶段。OpenAI的CUA、Browser Use、Skyvern、Stagehand等工具的竞争已经从功能扩展到性价比和运营效率。

在这个节点上，行为克隆和技能蒸馏的范式给了行业一个新的可能。不一定每次都要用旗舰模型推理。让Mini跑就行。

这并不是说前沿模型将在Agent架构中消失。更现实的未来是混合架构。教师大模型负责技能创造和边界校验，学生小模型负责日常执行，Human-in-the-Loop负责异常兜底。

浏览器Agent终于开始像人学习了。犯错一次，记住教训，下次不错。

“记录一次，复用无限次。”这个AI圈说了很多年但很少兑现的承诺，BrowserBC让它离落地更近了一步。如果这套范式能通过真实生产环境的考验，它可能会像Docker之于应用部署一样，不是取代底层模型，而是从根本上改变Agent的交付和使用方式。

当所有Agent都在追求更聪明时，也许更聪明的做法是让Agent学会记住。