米乐m6

训练数据集

计算机视觉训练数据集

语音识别训练数据集

语音合成训练数据集

OCR训练数据集

发音词典训练数据集

自然语言理解训练数据集

大模型训练数据集

训练数据集

米乐m6现有成品训练数据集涵盖语音识别数据20万小时，计算机视觉数据800TB，自然语言理解…
查看更多
数据定制服务

3D点云数据定制

街景数据定制

OCR数据定制

行为识别数据定制

身份识别数据定制

语音识别数据定制

语音合成数据定制

多模态数据定制

数据定制服务

米乐m6拥有专业数据采集设备、工具和环境，自建三大米乐m6基地，凭借丰富的AI数据项目实施经验及完善的项目管理流程，满足客户多种场景和类型的数据需求，支持专业个性化数据采集与标注服务。
查看更多
行业解决方案

智能驾驶解决方案

智能娱乐解决方案

智能客服解决方案

智能家居解决方案

新零售解决方案

智能医疗解决方案

行业解决方案

米乐m6拥有10年以上为各行各业提供数据服务的经验。
查看更多
米乐m6平台

米乐m6平台

米乐m6实训平台
关心米乐m6

企业介绍

人才招募

新闻中心

数据竞赛

咨询销售

客服
留言
联系电话 13051623904
电话
发送邮件 services@datatang.com
邮件

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功！感谢您支持米乐m6。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.ai

m.datatang.ai

口音英语语音识别挑战赛

ACCENTED ENGLISH AUTOMATIC SPEECH RECOGNITION CHALLENGE 2020

联合主办单位

中国计算机学会

语音对话与听觉专业组
西北工业大学

音频语音与语言处理研究组
西安高新产业技术开发区

软件园发展中心
陕西鲲鹏生态创新中心
上海交通大学

智能语音实验室
新加坡南洋理工大学

计算机科学与工程学院
美国约翰霍普金斯大学

语言与语音处理中心
米乐m6（北京）

科技股份有限公司

竞赛背景 CHALLENGE BACKGROUND

INTERSPEECH2020 口音英语语音识别技术研讨会

Interspeech是由国际语音通信协会ISCA组织的语音研究领域的顶级会议之一，2020年Interspeech以“Cognitive Intelligence for Speech Processing”为主题，汇聚来自全球语音领域的研究人员、人工智能从业者、业内知名企业等，在语音方面如信号处理和语音识别语言方面如NLP、翻译等进行深入交流与探讨。

作为Interspeech2020的旗舰技术活动，旨在吸引全球范围内从事英语语音识别的研究人员。本次研讨会将采取线上举办的形式。米乐m6将联合陕西鲲鹏生态创新中心、中国计算机学会语音对话与听觉专业组、西北工业大学音频语音与语言处理研究组共同筹办，同时发起口音英语语音识别挑战赛。本次研讨会也得到了西安市高新产业技术开发区软件园发展中心的大力支持。

竞赛简介CHALLENGE INTRODUCTION

口音英语语音识别挑战赛

英文作为最具影响力的全球性交流语言之一，与其相关的英文语音识别系统也在学术界和工业界受到广泛关注。当前阶段，标准英文ASR系统已经能够获得较高的识别正确率，满足一定场景的商用要求，但是口音英语识别仍然是具有挑战性的课题，商用系统往往通过大量的口音标注数据覆盖来缓解口音带来的识别性能影响。口音语音识别难点主要源于口音本身的不一致性、语速与音素发音的多变性难以建模等问题。另外，带有口音标注的语音数据的短缺也严重限制了相关研究的开展。

Interspeech 2020口音英语语音识别挑战赛 (Interspeech2020 Accented English Speech Recognition, AESR) 向参赛者开放了来自不同国家的共八种口音英文数据，覆盖了各种发音特点、口音轻重，旨在加强英文语种识别、口音语音识别的研究交流。期待来自学术界与工业界的学术研究者能够相互切磋，有所收获。

本次竞赛所使用计算资源由华为云提供

赛道设置

Track1

口音种类识别

使用官方提供的各种口音英文的训练数据，训练语种分类模型。提交测试集合上的语种识别结果。

注：对所使用的模型与训练技术不加限制，但不能使用任何官方数据集外的数据。评价指标为语种识别的准确率。

Track2

口音英语语音识别

使用规则限定的训练数据，训练语音识别模型。提交测试集合上的语音识别结果文本。

注：测试集合中会出现训练集外的口音以验证模型泛化性能。禁止使用包括ROVER在内的模型融合技术，音频训练数据限定为官方提供的共160小时口音英文数据，不允许使用音频数据对应的抄本之外的文本信息进行语言模型的训练。对语音数据的数据增广只能基于限定的数据。

指定数据

米乐m6将为参赛者提供总量为160小时的采集自8个国家（俄罗斯、韩国、美国、葡萄牙、日本、印度、英国和中国）的口音英语数据，每种口音数据约20小时。

时长	每种口音约20小时，共8种口音
语言与口音类型	来自俄罗斯、韩国、美国、葡萄牙、日本、印度、英国和中国的带口音的英文
说话人	每个语种40-110个说话人
音频格式	16kHz,16bit,单声道wav
录音环境	相对安静的室内，手机录音
音频内容	日常交流为主，包含人机交互等场景

训练数据将与按如下格式组织的metadata同时开放

字段	描述
SEX	说话人性别
AGE	说话人年龄
ACT	口音类别
MIT	录音设备
SCC	录音环境
LBR	音频时长
ORS	原始文本

两个赛道中允许使用Librispeech数据（http://www.openslr.org/12/）

参赛日程

1
参赛报名截止

2020.08.31
2020.08.31
组委会提供

训练数据
2
3
组委会提供

测试集
2020.09.22
2020.09.24
参赛团队提

交测试结果
4
5
组委会公布

评测结果
2020.09.30
2020.10.09
参赛团队提

交方案介绍
6
7
线上技术交流

暨颁奖
2020.12.05

奖项设置

口音识别

一等奖1名：10000元人民币

二等奖2名：5000元人民币

三等奖3名：2000元人民币
语音识别

一等奖1名：10000元人民币

二等奖2名：5000元人民币

三等奖3名：2000元人民币

注：奖金金额均为税前金额

竞赛指导委员会

（排名不分先后）

谢磊	西北工业大学
钱彦旻	上海交通大学
Shinji Watanabe	美国约翰霍普金斯大学
Chng Eng Siong	新加坡南洋理工大学
丰强泽	米乐m6（北京）科技股份有限公司

参赛对象

挑战赛向来自全社会的高等院校、科研单位与互联网企业的队伍开放。

注：大赛主办和技术支持单位如有机会接触赛题背景业务、产品、数据的员工，则自动退出比赛，放弃参赛资格。

报名参赛与数据协议

有意报名参赛的团队请联系interspeech2020@datatang.com
下载注册信息表格（中文或英文）并填写相关信息，发送至上述地址，邮件主题：【口音英语竞赛-队伍名称】。需填写的信息内容包括组织名称和所选赛道。报名截止日期为2020年8月31日。
组委会将在5个工作日内审核参赛队伍的参赛资格。通过审核的团队将签署挑战数据使用协议，并有资格加入挑战。
训练数据将于2020年8月31日公布，数据下载方式将提供给通过审核并签署协议的参赛者。

下载报名表