钛媒体12月2日消息,日前,腾讯微视视频理解团队在多模态理解领域排行榜之一VCR任务中拿下榜首。BLENDer凭单模型效果超越了此前榜单上的多模型最好效果,并深度应用到短视频领域。
据微视相关负责人介绍,该模型可以使得包含文本、音频、视频等多种媒体信息在内的短视频内容,更好地分类和识别,精准理解和挖掘海量的跨媒体信息。例如,当腾讯微视用户创作视频后平台可识别内容并精准推荐适合的话题,也能根据内容属性快速推荐给感兴趣的用户,增强创作内容的曝光。
VisualCommonsense Reasoning (VCR)任务于2018年由华盛顿大学的研究人员首次提出,任务旨在将图像和自然语言理解二者结合,验证多模态模型高阶认知和常识推理的能力,让机器拥有“看图说话”的能力。