微软研究院发布Webwright：终端原生Web代理框架，Odysseys得分达60.1%

2026.05.24 17:13

微软研究院推出开源终端原生Web代理框架Webwright，通过编写Playwright代码控制浏览器，替代传统逐次操作模式。GPT-5.4驱动的Webwright在Odysseys基准测试中得分60.1%，较基础GPT-5.4的33.5%大幅提升；在Online-Mind2Web基准中达86.67%，小模型结合工具脚本也能处理复杂任务。

现有Web代理大多逐次驱动浏览器，而微软研究院AI Frontiers实验室推出的Webwright则另辟蹊径——它用终端取代有状态的浏览器会话，让代理编写Playwright代码来控制浏览器、执行bash命令，还能迭代优化脚本。这个框架将代理与浏览器分离，把代码和日志作为持久化工件，模式上类似开发者编写RPA脚本的过程。

Webwright包含Runner、Model Endpoint和终端环境（Environment）三个核心组件，代码量约1000行，不涉及多代理编排。在基准测试中，由GPT-5.4驱动的Webwright表现突出：Online-Mind2Web基准得分达86.67%，Odysseys基准得分60.1%——相比基础GPT-5.4的33.5%提升了79.4%，较此前的SOTA（state-of-the-art）结果也提升了35.1%。

成本上，GPT-5.4驱动时平均每任务成本低于Claude Opus 4.7；即便是小模型Qwen3.5-9B，结合工具脚本后在Online-Mind2Web硬拆分测试中也能达到66.2%的得分。此外，这个框架支持OpenAI、Anthropic等后端，可通过CLI执行任务，还集成了Claude Code技能。

相关信息来源包括Marktechpost，以及微软研究院的文章（链接：https://www.microsoft.com/en-us/research/articles/webwright-a-terminal-is-all-you-need-for-web-agents/）和GitHub仓库（地址：github.com/microsoft/Webwright）。

作品声明：内容由AI生成