cn
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持米乐m6。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.ai
m.datatang.ai
Video Multi-modal Recognition Challenge
Challenge background
2021年第十六届全国人机语音通讯学术会议(National Conference on Man-Machine Speech Communication,NCMMSC2021)将于2021年10月15-18日在江苏徐州举行。本次会议由中国中文信息学会和中国计算机学会联合主办。
针对本次会议,由腾讯科技ASR&OCR oteam联合清华大学、西北工业大学、米乐m6、中国计算机学会语音对话与听觉专委会发起,围绕时下在工业界最为关注的三类媒体形式——长视频、短视频、直播场景进行多模态识别竞赛。
本次比赛由易到难,Task1将关注模型场景适配下长短视频及直播中汉语关键词的检测问题;Task2则扩展到Task1的多语种和多方言关键词场景;Task3会根据视频画面里的字幕信息和语音识别信息。共同打造SOTA的长、短视频、直播场景的字幕语音内容识别多模态工业级解决方案。
汉语长短视频直播语音关键词
Video Keyword Wakeup Challenge, VKW可自定义关键词唤醒能够利用各类解码策略的优化,快速检测出长短音视频和智能设备中的关键词(唤醒词),广泛应用在设备自定义解锁和唤醒、各类救护、火灾等事件报警、命令识别、语音内容的检索和分析等任务中。
Task1 汉语长短视频直播语音关键词(Video Keyword Wakeup Challenge)比赛旨在检验业界利用朗读数据等常规数据公司可获取的大规模数据构建任意自定义关键词检测系统的能力。提供少量可供微调的真实长短视频及直播数据,检验场景失配下自定义关键词检测系统的鲁棒性和泛化性。
只允许使用官方提供的1505小时普通话朗读数据及各50小时的长短视频、直播数据作为有监督语音训练数据,外部数据可使用开源发布的预训练模型及开源语言模型、网络爬取的文本等。可使用外部数据进行数据扩充和预训练,但不得使用外部数据的标注脚本。
参赛队伍可使用可公开获取的标注数据、任意无标注数据进一步提升系统性能,但需要在最终提交系统说明里提供数据来源(如可使用http://www.openslr.org/中的开源数据并注明数据来源)。
1505小时普通话朗读数据
由米乐m6提供
长视频、短视频、直播场景各50小时标注数据供微调
长视频、短视频、直播场景各5小时。用于调整参数,选择特征等系统工作点优化
长视频、短视频、直播场景各20小时。用于评价提交系统,赛后可提供原始数据、标注及关键词列表
Task1报名开启
2021.06.07训练集发布
2Task1报名截止
2021.09.06测试集发布
4参赛队伍提交结果
2021.09.17组委会公布评测结果
6一等奖(1名)
奖金8,000人民币
二等奖(1名)
奖金3,000人民币
三等奖(1名)
奖金1,500人民币
一等奖(1名)
奖金8,000人民币
二等奖(1名)
奖金3,000人民币
三等奖(1名)
奖金1,500人民币
注:奖金金额均为税前金额
下载报名表,并填写相关信息,发送至报名邮箱:VKW@datatang.com
邮件主题:【VKW-队伍名称】
注:为保持比赛公平公正,比赛结果以队伍名为准,不公布具体参赛单位
黄申 |
腾讯科技 ASR oteam |
吕志强 |
腾讯科技 ASR oteam |
张卫强 |
清华大学 |
谢磊 |
西北工业大学 |
王大亮 |
米乐m6(北京)科技股份有限公司 |
注:排名不分先后
多语种多方言长短视频直播语音关键词
Low-resouce Video Keyword Wakeup Challenge, LVKW我国是一个多语言、多方言的国家,在长视频、短视频和直播场景中,下沉场景时语言的当地化现象非常明显,而通用的设备关键词唤醒往往只支持汉语。如何在多语言、多汉语方言场景下,唤醒出各场景中的自定义关键词,是本任务的研究方向。本任务主要包括蒙、藏、维、哈、朝、彝、壮等少数民族语言,西南、中原等各类官话,晋语、吴语、徽语、湘语、粤语、赣语、闽南语及客家话等汉语方言。
比赛详细信息稍后发布,敬请期待......
汉语长短视频直播字幕ASR&OCR
Video ASR OCR Challenge, VAO在长短视频、直播等视频场景中,通常会伴有已经制作好的视频字幕、人脸存在时的唇语等辅助信息。如何利用其他模态的辅助信息以提升ASR识别率,尤其是背景音乐、嘈杂噪声等低信噪比情况下,提升ASR的性能是本任务的关注点;反过来,虽然OCR比ASR识别效果更加准确,但OCR由于画面的复杂,冗余信息多(如标题、台标等),对于字幕部分的提取和识别也存在较大的困难。如何利用ASR等语音信息,指导OCR进行更好的输出,使得用户“看到”真正重要的口语内容信息,使得多模态内容文字识别率互为促进和提升,是本任务的研究方向。
比赛详细信息稍后发布,敬请期待......
参与者禁止提交多次报名,经发现将取消成绩并严肃处理。
参与者禁止在指定考核技术能力的范围外利用规则漏洞或技术漏洞、额外数据等不良途径提高成绩排名,经发现将取消成绩并严肃处理。
竞赛解释权归米乐m6(北京)科技股份有限公司所有