微软的新视觉语言(VL)系统大大超越了人类的表现

Microsoft-Vision-Language-System

视觉语言(VL)系统允许搜索相关图像以进行文本查询(反之亦然),并使用自然语言描述图像的内容。通常,VL系统使用图像编码模块和视觉语言融合模块。微软研究院最近开发的图像编码称为一个新的对象属性检测模型VINVL V isual功能  V ision-大号anguage)。

当VinVL与OSCAR 和 VIVO等VL融合模块结合使用时,新的Microsoft VL系统就可以在最具竞争力的VL排行榜中占据领先地位,包括视觉问题解答(VQA),Microsoft COCO图像字幕和Novel Object Captioning( nocaps)。微软研究团队还强调,这种新的VL系统在CIDEr方面(92.5与85.3)在nocaps排行榜上大大超过了人类的表现。

VinVL在改善图像编码以增强VL理解方面显示出巨大潜力。如本文中的示例所示,我们新开发的图像编码模型可以使各种VL任务受益 。尽管我们获得了令人鼓舞的结果,例如在图像字幕基准上超过了人类的表现,但我们的模型绝不能达到人类对VL理解的智能。未来工作的有趣方向包括:(1)通过利用海量图像分类/标记数据进一步扩大对象-属性检测的预训练,以及(2)将跨模式VL表示学习的方法扩展到建立基于感知的语言模型,可以像人类一样以自然语言为视觉概念打下基础,反之亦然。

Microsoft VinVL已集成到Azure认知服务中,该服务支持各种Microsoft服务,例如Seeing AI,Office和LinkedIn中的图像字幕以及其他功能。微软研究团队还将向公众发布VinVL模型和源代码。

未经允许不得转载:励志言 » 微软的新视觉语言(VL)系统大大超越了人类的表现

赞 (0) 打赏

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏