第一届淘宝直播商品识别大赛完美落幕,阿里淘系开源比赛数据集

2020-10-17 06:08:06    新闻来源:本站

  阿里巴巴淘系技术部与北京大学前沿计算研究中心CVDA实验室、英国爱丁堡大学等合作,正式开源业界首个大规模的多模态直播服饰检索数据集(Watch and Buy)以推动视频多模态检索技术的研究。

  此前,依托该数据集举办的第一届淘宝直播商品识别大赛完美落幕,近2000支队伍参加了比赛,涌现了一批检索创新技术,有效提升淘宝直播场景中服饰检索的效果,形成了一定的学术和工业影响力。

  什么是Watch and Buy?

  直播带货是淘宝连接商品和消费者的重要方式,通过对直播视频中商品进行实时识别和推荐,可实现消费者边看边买的消费体验,有效提高商品购买的转化,有非常大的经济价值。通常情况下直播对应的数百款商品之间相似程度高,且直播画面中存在大量的背景干扰、灯光变化、商品遮挡和形变等,给直播画面中商品的匹配识别带来很大的技术挑战。

淘宝直播边看边买效果示例,借助PixelAI 商品识别算法,可以从该直播的商品库中识别出直播中主播讲解的商品,并在直播中通过商品卡片形式推荐给消费者。

  为了提升直播中商品匹配识别的效果,我们依托淘宝直播海量数据,构建了业界最大规模的多模态视频商品检索数据集Watch and Buy (WAB)。该数据集包含70,000个由直播视频片段和对应讲解商品构成的匹配对,具有规模大、标注全、模态多、功能广的特点。我们抽取视频片段若干关键帧和商品的全部商品图进行了实例框级标注,商品id数达82,173个,标注图像数达1,042,178张,检测框实例1,654,780个。框级标注信息丰富多样,包括商品的检测框、类别、视角、展示方式、同款编号等。除了视觉标注,我们还对主播讲解语音进行了人工文本转录,同时提供了商品的标题文本信息。该数据集可用于物体检测的算法、商品重识别算法、主播意图识别、跨模态检索和多模态检索等多种算法的研究。

本站所刊登的各种新闻﹑信息和各种专题专栏资料,均为湖南热线版权所有,未经协议授权禁止下载使用。
Copyright © 2000-2020 www.010xww.com All Rights Reserved
编辑QQ:123456789