微软Fara1.5浏览器智能体发布:参数覆盖4B至27B,基准测试成功率超OpenAI竞品

2026.05.23 10:59
2026年5月23日,微软研究院AI Frontiers实验室发布Fara1.5系列浏览器智能体模型,含4B、9B、27B三个参数版本。该模型依托沙盒界面解析截图输出操作,基于Qwen3.5,在Online-Mind2Web基准中成功率达72%,优于OpenAI Operator,具备敏感操作安全机制。

如今网页交互场景越来越复杂,用户完成机票预订、表单提交这类任务常常需要多步手动操作,而传统自动化工具依赖固定脚本,很难适配动态变化的网页结构。这类问题正推动浏览器智能体技术成为AI应用落地的重要方向。2026年5月23日,微软研究院AI Frontiers实验室正式发布Fara1.5系列浏览器智能体模型,希望通过视觉理解与行动决策的深度结合,破解网页操作自动化的核心难题。

Fara1.5系列包含4B、9B、27B三个参数版本,覆盖从低算力轻量化设备到高性能服务器的不同使用场景。其中最高参数版本Fara1.5-27B在Online-Mind2Web基准测试中取得72%的任务成功率,这一成绩明显超过OpenAI Operator等同类竞品,展现出它在复杂网页环境下的决策精度和适应性。该模型的核心是作为浏览器场景的专用智能体,能够模拟人类用户的网页操作逻辑,完成从信息检索到交互操作的全流程任务。

技术层面,Fara1.5基于MagenticLite沙盒界面运行,能实时解析网页截图,转化为鼠标点击、键盘输入等操作指令;其基础模型以Qwen3.5检查点为基础构建,采用“观察—思考—行动”的循环机制,结合历史对话信息和最近3帧网页截图展开推理,确保决策的连贯性和上下文一致性。训练数据规模约200万条,涵盖真实网页操作轨迹、合成模拟环境数据及视觉问答样本,为模型的泛化能力打下了坚实基础。此外,模型内置安全机制,一旦检测到支付验证、账号登录这类敏感操作,就会主动暂停流程并向用户请求确认,有效降低操作风险。

Fara1.5的发布意味着浏览器智能体技术从实验室研究迈向实用化的关键一步,它的视觉-行动融合能力弥补了传统文本驱动智能体的不足。对普通用户来说,该模型能简化复杂网页任务流程,提升操作效率;对企业而言,可减少自动化脚本的开发和维护成本,更好适配动态变化的网页结构。近期浏览器智能体赛道竞争逐渐激烈,OpenAI之前推出的Operator模型曾在该领域领先,但Fara1.5这次的测试结果显示它已经实现了反超;谷歌也有消息称正在研发基于Chrome浏览器的智能体系统,未来该领域可能会出现更多技术突破和产品更新。

作品声明:内容由AI生成