我要投稿

ChildMandarin – 智源联合南开开源的低幼儿童中文语音数据集

AI老司机 AI行业动态

2025-04-09 0 607

ChildMandarin是什么

ChildMandarin 是智源研究院联合南开大学计算机学院人类语言技术实验室（HLT Lab）共同推出的，针对3-5岁儿童的普通话语音数据集。数据集包含41.25小时的语音数据，来自397名儿童，覆盖中国22个省级行政区，性别分布均衡。数据用智能手机录制，确保高质量音频。ChildMandarin核心特点是自然真实交互，用家长引导式对话采集方式，模拟自然交流场景。数据集填补了低幼儿童语音研究的空白，推动儿童语音识别、语言发展研究及智能语音交互系统的发展。

ChildMandarin的主要功能

语音识别：为自动语音识别（ASR）模型提供大量3-5岁儿童的自然语音数据，提升儿童语音识别的准确性和鲁棒性。
说话人验证：支持说话人验证（SV）任务，帮助识别和区分不同儿童的声音，用在儿童身份认证等场景。
语言研究：为儿童语言发展研究提供数据支持，助力开发儿童语言学习工具和互动教育系统。

ChildMandarin的技术原理

数据采集：用家长引导式对话的方式，模拟自然交流场景，确保语音数据的真实性和自然性。数据采集覆盖中国22个省级行政区，确保不同地域口音的多样性。用智能手机（Android和iPhone）进行录音，确保音频质量高，采样率为16kHz，精度为16位。
数据标注：由专业转录人员进行手动标注，包括儿童的发音、停顿、重复等自然语言现象。标注说话人的年龄、性别、出生地、录音设备、口音等级等信息。
模型训练和评估：用多种ASR模型（如Transformer、Conformer、Paraformer）进行训练和评估，基于CTC、AED、RNN-T等技术。对预训练模型（如HuBERT、Whisper）进行微调，用在大规模数据上学习到的特征，提升儿童语音识别的性能。用说话人嵌入提取模型（如x-vector、ECAPA-TDNN、ResNet-TDNN）进行说话人验证任务，评估模型在儿童语音上的表现。
数据集设计：数据集分为训练集、验证集和测试集，确保模型训练和评估的科学性和有效性。基于多样化的数据采集和标注，确保数据集能够覆盖不同年龄段、性别、地域和口音的儿童语音。

ChildMandarin的项目地址

GitHub仓库：https://github.com/flageval-baai/ChildMandarin
HuggingFace模型库：https://huggingface.co/datasets/BAAI/ChildMandarin
arXiv技术论文：https://arxiv.org/pdf/2409.18584

ChildMandarin的应用场景

儿童语言学习工具：开发智能语音辅助工具，帮助儿童学习语言发音、词汇和语法，提升语言能力。
互动教育系统：为儿童教育软件和互动学习平台提供语音交互功能，让学习过程更加生动有趣。
智能玩具开发：增强智能玩具的语音识别能力，更好地理解儿童的语音指令，提升互动体验。
语音助手优化：改进语音助手（如智能音箱、手机助手）对儿童语音的识别和响应，更适合儿童使用。
儿童健康管理：监测儿童的语言发展和健康状况，为早期干预提供支持。

收藏点赞 (0)

若非本站原创的文章，特别作如下声明：
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用，不代表任何监管机构的立场和观点。
不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息，均为转载，版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材，请版权所有者联系我们，我们将及时补上或者删除，共同建设自媒体信息平台，感谢你的支持！

AI老司机 AI行业动态 ChildMandarin – 智源联合南开开源的低幼儿童中文语音数据集 https://www.ailsj.cn/1292.html