155小时唇形同步视频数据_多模态

249人参与录制语音以及相匹配的唇语视频，多设备同步录制，通过脉冲信号进行精准对齐，准确性高。可用于语音图像领域的多模态学习算法研究。经多家AI公司验证：有助于模型面对真实世界的多样性时能够表现出色。我们严格遵循数据保护法规和隐私规定，确保数据采集、存储和使用的过程中维护用户的隐私和合法权益，所有数据均遵循GDPR,CCPA,PIPL。

米乐m6如何保障数据质量与安全

数据规格

格式

视频mp4格式，1,280*720；音频wav格式，16kHz 16bit单声道

录制环境

阳面带窗的安静室内模拟室外白天驾驶场景；信噪比15~20dB

录制场景

根据光照强度分为不同大场景和子场景

录制内容

短指令；口语句子

录音人

249名中国人，其中男性125人，女性124人

录制设备

摄像机、高保真麦克风、声卡

录制角度

同时录制正脸、单一面侧脸、俯视、仰视、侧脸俯视、侧脸仰视6个角度的视频（含音视频），以及近端、远端2个距离的音频（不含视频）

语言

普通话

应用场景

唇语识别

准确率

句准确率95%

米乐m6

155小时唇形同步视频数据_多模态

数据规格

样例展示