商汤开源Agentic VLM模型,让AI能自主“动脑动手”

AGI
开源模型又来碾压闭源巨头了?

图片由AI生成

图片由AI生成

商汤正式开源多模态自主推理模型SenseNova-MARS(8B/32B双版本)。这是商汤首个支持动态视觉推理和图文搜索深度融合的Agentic VLM模型,能自己规划步骤、调用工具,搞定复杂任务,让AI具备“执行能力”。

在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基准测试中,SenseNova-MARS取得开源模型中的SOTA成绩,超越了Gemini-3.0-Pro、GPT-5.2等顶级闭源模型,在搜索推理和视觉理解两大领域领跑。
在MMSearch榜单(图文搜索核心评测)中,模型以74.27分登顶,超过GPT-5.2(66.08分);HR-MMSearch(高清细节搜索评测)中以54.43分领先,拉开与闭源模型的差距。图片来源:商汤技术报告

在MMSearch榜单(图文搜索核心评测)中,模型以74.27分登顶,超过GPT-5.2(66.08分);HR-MMSearch(高清细节搜索评测)中以54.43分领先,拉开与闭源模型的差距。图片来源:SenseNova-MARS技术报告

简单理解,该模型解决的问题有二:“查遍全网”的知识密集型任务,“火眼金睛”的细粒度视觉分析。

SenseNova-MARS能实实在在落地到我们生活和工作的场景,解决需要“多步骤推理+多工具协作”的问题。

市面上一些AI的工具调用,遇到需要“先放大细节、再识别物体、最后查背景”的复杂任务会束手无策。

而SenseNova-MARS能从产品和行业峰会的照片中,识别企业的标志,快速搜集产品、企业的信息,以及时间、数量、参数等细节要素,辅助分析行业情况和格局。
1

图片来源:SenseNova-MARS技术报告

同时,SenseNova-MARS能从赛事照片中识别画面中的Logo、人物等信息,追溯比赛或人员背景信息,帮助补充重要细节。
图片来源:SenseNova-MARS技术报告

图片来源:SenseNova-MARS技术报告

拥有这种“自主思考+多工具协作”的能力,SenseNova-MARS能够自动解决“细节识别 + 信息检索 + 逻辑推理”复杂任务,实现工作效率提升。

  • 图像裁剪:聚焦图片上的微小细节,包括占比不到5%的细节——比如赛车手衣服上的微小Logo、赛事照片里观众席的标语,可通过裁剪放大清晰分析。
  • 图像搜索:能在看到物体、人物或场景,的瞬间自动匹配相关信息——比如识别出赛车手的身份,或是某款冷门设备的型号。
  • 文本搜索:抓取精准信息——无论是公司成立年份、人物出生年月,还是最新的行业数据。

之所以能够实现上述能力,SenseNova-MARS采用了“因材施教”的训练方法。

第一阶段:打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点,提出了基于多模智能体的自动化数据合成引擎,采用细粒度视觉锚点 + 多跳深度关联检索的机制,动态挖掘并关联跨网页实体的逻辑,自动化构建高复杂度的多跳推理链路,同时引入闭环自洽性校验来去除幻觉数据,构造出具备严密逻辑链条与高知识密度的多跳搜索问答数据。

用筛选的“高难度案例”做教材,每个案例都标注了“该用什么工具、步骤是什么”,让AI先学会基本的“破案逻辑”。这些案例都是从海量数据中挑出的“硬骨头”,确保AI一开始就接触真实复杂场景。

第二阶段:练实战。采用“强化学习”——就像侦探在一次次破案中积累经验,AI每做对一次决策(比如选对工具、步骤合理)就会获得奖励,做错了就调整策略。为了避免AI“学偏”,研究团队还加了个“稳定器”——BN-GSPO算法,让它在处理简单题和复杂题时都能保持稳定进步,不会出现“偏科”。

这种基于双阶段归一化的优雅机制,有效平滑了动态工具调用返回分布多样性带来的优化波动并确保了学习信号分布的一致性,从而解决了跨模态多步多工具智能体训练过程中的收敛性难题。

经过这样的训练,AI不仅学会了用工具,更培养“工具使用直觉”——知道在什么情况下应该使用哪些工具,以及如何将不同工具的结果有机结合起来。

商汤日日新SenseNova-MARS模型、代码、数据集全开源,支持Hugging Face直接下载。(作者|李程程,编辑|李玉鹏)

本文系作者 LCC_Beta版 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

17:11

现货白银日内跌幅扩大至11%,报104.7美元/盎司

17:11

上海:支持工业、电子信息、能源电力、交通运输等线下消费商业设施设备更新项目申报

17:07

三六零:预计2025年净利润2.13亿元-3.18亿元,同比扭亏为盈

17:06

嘉实原油LOF、嘉实黄金LOF:自2月2日起暂停大额申购、大额定期定额投资业务,每日累计投资限额不超过5元

17:02

德国第四季度季调后GDP季率初值为0.3%,预期0.2%

17:01

闪迪美股盘前涨超20%

16:58

风范股份:拟终止收购北京炎凌嘉业智能科技股份有限公司51%股权

16:55

德国1月季调后失业率为6.3%,预期6.30%,前值6.30%

16:52

美国30年期国债收益率涨6个基点至4.91%,创日内高位

16:50

派克新材:拟募资不超15.8亿元,用于高端能源装备关键部件一体化智能制造项目等

16:50

小摩:金价未来几年有望涨至8000美元至8500美元

16:46

工行:自2月7日起,将对如意金积存业务进行限额管理

16:46

美国30年期收益率涨6个基点至4.91%,创日内高位

16:46

中证指数有限公司将于2月2日正式发布中证高等级科技创新债券指数等9条指数

16:45

新希望:预计2025年净亏损15亿元-18亿元,同比转亏

16:43

现货钯金下挫10%,报1,801.50美元/盎司

16:41

中证1000指数样本调整:调入龙迅股份,调出德邦股份

16:38

山东黄金:2025年净利同比预增56%-66%

16:37

现货白银日内跌幅扩大至10%

16:36

2025年广州GDP为32039.46亿元

扫描下载App