米乐m6

200人中文唤醒词手机采集语音数据_朗读

中文唤醒词语音数据_朗读(手机),基于给定的脚本朗读并模拟录制,涵盖多个唤醒词,内容丰富。此数据集标注了文本内容等多种属性,采集自200名中国本地人,每人180句;录制人员男女比例均匀;采集环境多样,覆盖七大方言区。文本经过人工校对,准确率高,为语音识别相关研究及应用提供了丰富的资源,经多家AI公司验证:有助于模型面对真实世界的多样性时能够表现出色。我们严格遵循数据保护法规和隐私规定,确保数据采集、存储和使用的过程中维护用户的隐私和合法权益,所有数据均遵循GDPR,CCPA,PIPL。

数据规格

格式
16kHz, 16bit,未压缩wav,单声道
内容分类
唤醒词,包括你好小E、我的荣耀、蒙娜丽莎、成吉思汗、天下无敌
录音条件
安静环境;噪音环境;
录音设备
荣耀honor8,华为G9
录音人信息
共计200名中国人,其中男性占比47%,女性占比53%
国家
中国
语言地区代码
zh-CN
语言
中文普通话
标注特点
标注文本内容
准确率
句准确率99%

样例展示

0:00/ 0:00

T0253G0001S0122.wav 成吉思汗

0:00/ 0:00

T0253G0004S0148.wav 天下无敌

0:00/ 0:00

T0253G0149S0152.wav 天下无敌

0:00/ 0:00

T0253G0149S0168.wav 天下无敌

0:00/ 0:00

T0253G0001S0169.wav 天下无敌

Sitemap