米乐m6

训练数据集

计算机视觉训练数据集

语音识别训练数据集

语音合成训练数据集

OCR训练数据集

发音词典训练数据集

自然语言理解训练数据集

大模型训练数据集

训练数据集

米乐m6现有成品训练数据集涵盖语音识别数据20万小时，计算机视觉数据800TB，自然语言理解…
查看更多
数据定制服务

3D点云数据定制

街景数据定制

OCR数据定制

行为识别数据定制

身份识别数据定制

语音识别数据定制

语音合成数据定制

多模态数据定制

数据定制服务

米乐m6拥有专业数据采集设备、工具和环境，自建三大米乐m6基地，凭借丰富的AI数据项目实施经验及完善的项目管理流程，满足客户多种场景和类型的数据需求，支持专业个性化数据采集与标注服务。
查看更多
行业解决方案

智能驾驶解决方案

智能娱乐解决方案

智能客服解决方案

智能家居解决方案

新零售解决方案

智能医疗解决方案

行业解决方案

米乐m6拥有10年以上为各行各业提供数据服务的经验。
查看更多
米乐m6平台

米乐m6平台

米乐m6实训平台
关心米乐m6

企业介绍

人才招募

新闻中心

数据竞赛

咨询销售

客服
留言
联系电话 13051623904
电话
发送邮件 services@datatang.com
邮件

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功！感谢您支持米乐m6。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.ai

m.datatang.ai

主办方

数据支持

竞赛背景

challenge background

近年来，随着短视频、直播等基于媒体的应用的快速兴起，视频数据的广泛传播导致用户生成内容显著增加。各种各样的创作平台和模式已经出现，媒体发布标准越来越平民化，导致各种长短视频和直播的声学场景更加复杂和动态。各种场景下的视频字幕识别和语音识别一直是研究人员相当关注的问题。准确识别和理解各类视频内容的方法的发展已成为下游应用程序中不可或缺的工具。为了更好的促进字幕识别技术的发展，我们提出了探索整合视频和音频模式优势的任务，专注于使用视觉和音频模式从视频中提取字幕。

多模态字幕识别 Multimodal Subtitle Recognition，MSR

竞赛介绍

视频通过视觉和音频等多模态传递丰富的信息。融合多模态信息识别视频中的内容是其中一项具有挑战和价值的研究课题。

字幕是视频数据中最重要的文本信息之一，访谈节目或电视剧等视频一般会把人们交谈的内容以视觉字幕的形式呈现出来。近年来，字幕识别被广泛应用于视频推荐、检索和理解系统中，但大家一般会通过语音识别或OCR识别等单一模态的识别来获得文本形式的字幕信息。为了更好的促进字幕识别技术的发展，我们将在ICPR2022举办多模态的字幕识别竞赛，欢迎大家报名参加！

赛道设置

赛道 1使用音频模态标注的字幕信息在视觉模态中提取字幕

在这个任务中，只提供音频的标注信息。参赛者需设计一个字幕识别的OCR模型。参赛者可以使用指定的业界开源数据集对OCR模型进行预训练，然后通过音频模态提供的字幕信息微调模型。

提交的结果将在视觉模态的测试集上使用CER指标的结果进行排名。

赛道 2使用视觉模态标注的字幕信息在音频模态中提取字幕

在这个任务中，仅提供视觉模态的字幕对应的标注信息，参赛者需要设计一个识别语音内容的ASR模型。与赛道一相似，参赛者可以使用指定的开源语音数据集训练一个初始的ASR模型，然后将视觉模态的字幕信息作为弱监督的语音标注，用于ASR的模型的进一步微调。

最终提交的结果将在视频对应的语音测试集上根据CER指标进行结果排名。

赛道 3使用视觉模态和音频模态标注的字幕信息提取视频中的字幕

在这个任务中，我们将提供音频模态和视觉模态标注的字幕信息。参赛者需利用这两个模态的字幕信息设计一个字幕识别的模型。与赛道一，二相同，参赛允许使用公开数据集进行预训练，然后对模型进行微调。

提交结果将在同时具备视觉和音频模态的测试集上使用CER指标的结果进行排名。

数据集

我们提供了一个包含75小时视频内容的视频数据集，其中50/5/20小时分别用于训练、验证和测试。其中训练集和验证集提供了视觉字幕的弱标注和语音字幕的真实标注，测试集为真实标注。此外，还提供了额外的200小时未标注的视频内容作为无监督训练资源。

参赛日程

1
注册报名
2022.03.07
2022.03.12
训练集公布
2
3
开发阶段
2022.03.12-2022.04.22
2022.04.22
验证集公布
4
5
评测阶段
2022.04.22-2022.05.07
2022.05.07
结果提交截止
6
7
方法描述截止
2022.05.12
2022.05.13
评测结果公布
8

奖项设置

赛道01

冠军(1名)奖金3000USD
亚军(1名)奖金1500USD
季军(1名)奖金800USD

赛道02

冠军(1名)奖金3000USD
亚军(1名)奖金1500USD
季军(1名)奖金800USD

赛道03

冠军(1名)奖金3000USD
亚军(1名)奖金1500USD
季军(1名)奖金800USD

注：奖金金额均为税前金额

比赛信息：https://icprmsr.github.io/

联系邮箱：lattehuang@tencent.com

: 扫一扫，加入竞赛交流群

反作弊声明

: 参与者禁止提交多次报名，经发现将取消成绩并严肃处理。

: 参与者禁止在指定考核技术能力的范围外利用规则漏洞或技术漏洞、
额外数据等不良途径提高成绩排名，经发现将取消成绩并严肃处理。

竞赛方式及细节的解释权归腾讯科技（北京）有限公司所有