cn
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持米乐m6。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.ai
m.datatang.ai
作者:米乐m6 发布时间:2024-10-15
不难发现,Speech-To-Speech声音克隆技术开始火了,借助时下AIGC产品应用层出不穷,声音克隆也受到越来越多的关注。目前,AI声音克隆技术已经可以实现模拟出一个人的声音,包括音色、语言习惯和情绪等。
01
声音克隆是什么?
02
背后的数据逻辑
首先,构建声音克隆的基座需要大规模的音频。这些数据集应包含多语种、多风格、多情感的音频样本,涵盖不同主题和风格,以确保模型能够捕捉说话者的语音特征。在构建基座模型后,需要使用上千小时高质量语音数据对基座模型进行微调训练。这一阶段的训练数据最好配有副语言标注。副语言包括韵律特征(如语调、重音等)、突发性特征(如笑声、哭泣声等),以及次要发音(如鼻音等)。这些标注能够帮助模型更好地理解情感和语调,从而生成更具表现力的语音。
最后,需要对模型进行精细化调整,以提升生成语音的自然度和专业性。这一过程通常需要传统的专业发音人语音数据,以确保生成的语音流畅且自然。通过使用这些专业数据,模型能够学习更细腻的发音技巧和语音风格,使最终生成的语音更加接近真实说话者的声音。
03
声音克隆专题数据集
米乐m6自有版权的带有副语言标注的成品数据集、多风格、多情感、多语种的语音合成库可帮助模型更好提取语音特征,助力客户构建高质量的声音克隆模型。
带有副语言标注的高质量语音数据推荐
2人中文自由对话合成库
发音人为专业声优,分为一男一女,针对既定话题进行自由对话。专业语音学家参与标注,且标注副语言,副语言标签包含换气、停顿、嘴瓢、拖音、咳嗽、笑声、结巴重复、倒装、语气词等,精准匹配声音克隆的研发需求。采样格式48khz,24bit,PCM wav。200小时中文自然对话精标副语言合成库
400名普通发音人,进行两两自然对话,标注文本内容、句子时间戳。在副语言方面,标注了换气、重音、停顿、拖音、笑声等14种副语言。采样格式48khz,24bit,PCM wav。多风格的多发音人语音数据推荐
8人多风格平均音色合成库
涵盖北京话、电影解说、华妃、纪录片解说、美食解说、小说解说、中青年磁性男、怼人杜飞。150人中文客服平均音色合成库
由中文母语发音人录制,声音活泼亲切,录音内容以客服场景文本为主,涵盖金融等多个领域。语料音素覆盖均衡,专业语音学家参与标注,字准确率不低于99.8%,韵律标注准确率不低于准确率不低于98%。
100人中文通用平均音色合成库
内容分为中文、英文、中英混读。录音人性别及年龄分布均衡,包括成人音色、儿童音色、老人音色。录音内容涵盖新闻、日常口语、有声读物、诗词、广告、消息播送、娱乐等类别。对中文和英文分别进行了发音平衡覆盖。
50人中文三风格平均音色合成库
客服类、播音类、故事类录音文本,音节音素音调进行了平衡覆盖。录音人分为男性25人,女性25人。录音内容为每人210句客服类句子、210句播音类句子、210句儿童读物句子,进行音字标注及韵律标注。
多情感的多发音人语音数据推荐
42人中文多情感合成库
发音人覆盖不同年龄段、性别,且分布均衡。内容包含高兴、愤怒、悲哀、惊讶、恐惧、厌恶、中性七种情感句子。数据集共计108小时,平均每句15个字左右,每人每种情感数据量不少于20分钟。
20人中文多情感合成库
由中文母语发音人录制,覆盖不同年龄段音色和性别,共计60小时。文本均来自于小说,包含高兴、愤怒、悲哀、惊讶、恐惧、厌恶、中性七种情感文本。语料音素覆盖均衡,根据发音人实际发音对音频进行文本音字标注、韵律层级标注、音素边界标注。精品发音人语音数据推荐
29.4小时中文女声通用合成库
录音人为声音温柔亲切的年轻女性,内容涵盖日常口语、有声读物、新闻、广告、客服、电影解说,音节音素音调都进行了平衡覆盖。中文和中英混合句子均长15字左右,英文句子4~8个单词左右。
4人东北方言平均音色合成库
由东北本土的专业声优进行录制,年龄20-30岁。语料中约40%包含东北特有词汇,句子均长15字左右。对音频进行文本音字标注、韵律层级标注、音素边界标注,可用于语音合成声音克隆模型训练及算法研究。