155小时唇形同步视频数据_多模态
249人参与录制语音以及相匹配的唇语视频,多设备同步录制,通过脉冲信号进行精准对齐,准确性高。可用于语音图像领域的多模态学习算法研究。经多家AI公司验证:有助于模型面对真实世界的多样性时能够表现出色。我们严格遵循数据保护法规和隐私规定,确保数据采集、存储和使用的过程中维护用户的隐私和合法权益,所有数据均遵循GDPR,CCPA,PIPL。
数据规格
格式
视频mp4格式,1,280*720;音频wav格式,16kHz 16bit单声道
录制环境
阳面带窗的安静室内模拟室外白天驾驶场景;信噪比15~20dB
录制场景
根据光照强度分为不同大场景和子场景
录制内容
短指令;口语句子
录音人
249名中国人,其中男性125人,女性124人
录制设备
摄像机、高保真麦克风、声卡
录制角度
同时录制正脸、单一面侧脸、俯视、仰视、侧脸俯视、侧脸仰视6个角度的视频(含音视频),以及近端、远端2个距离的音频(不含视频)
语言
普通话
应用场景
唇语识别
准确率
句准确率95%