现有Web代理大多逐次驱动浏览器,而微软研究院AI Frontiers实验室推出的Webwright则另辟蹊径——它用终端取代有状态的浏览器会话,让代理编写Playwright代码来控制浏览器、执行bash命令,还能迭代优化脚本。这个框架将代理与浏览器分离,把代码和日志作为持久化工件,模式上类似开发者编写RPA脚本的过程。
Webwright包含Runner、Model Endpoint和终端环境(Environment)三个核心组件,代码量约1000行,不涉及多代理编排。在基准测试中,由GPT-5.4驱动的Webwright表现突出:Online-Mind2Web基准得分达86.67%,Odysseys基准得分60.1%——相比基础GPT-5.4的33.5%提升了79.4%,较此前的SOTA(state-of-the-art)结果也提升了35.1%。
成本上,GPT-5.4驱动时平均每任务成本低于Claude Opus 4.7;即便是小模型Qwen3.5-9B,结合工具脚本后在Online-Mind2Web硬拆分测试中也能达到66.2%的得分。此外,这个框架支持OpenAI、Anthropic等后端,可通过CLI执行任务,还集成了Claude Code技能。
相关信息来源包括Marktechpost,以及微软研究院的文章(链接:https://www.microsoft.com/en-us/research/articles/webwright-a-terminal-is-all-you-need-for-web-agents/)和GitHub仓库(地址:github.com/microsoft/Webwright)。






快报