VITA-Audio是什么
VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出,将生成首个音频标记块的时间大幅缩短,显著降低流式场景下的延迟。采用四阶段渐进式训练策略,在70亿参数规模下,推理速度比相似规模的开源模型快3至5倍,同时在(ASR)、(TTS)及口语问答(SQA)等任务的基准测试中表现优异。
VITA-Audio的主要功能
- 实时对话功能:VITA-Audio 能在首次前向传播中生成音频输出的多模态大语言模型,实现了极低延迟的实时对话能力。通过轻量级的多模态交叉标记预测(MCTP)模块,模型在单次前向传播中可高效生成多个音频标记,显著降低了流式场景下生成首个音频的延迟。
- 高效推理加速:在70亿参数规模下,VITA-Audio 实现了3至5倍的推理加速。得益于独特的四阶段渐进式训练策略,在最小化语音质量损失的前提下,实现了模型的高效推理。
- 多模态交互能力:VITA-Audio 能理解和处理多种模态的数据,包括音频、文本等。在多模态交互场景中具有广泛的应用潜力,例如在语音助手、智能客服等领域,能提供更加丰富和自然的交互体验。
- 语音生成与识别:VITA-Audio 在自动语音识别(ASR)、文本转语音(TTS)及口语问答(SQA)任务的多项基准测试中,显著优于相似模型规模的开源模型。在语音生成和识别方面具有较高的准确性和效率,能满足不同场景下的语音交互需求。
VITA-Audio的技术原理
- 多模态交叉标记预测(MCTP)模块:是 VITA-Audio 的关键创新之一。模块能在单次模型前向传播中高效生成多个音频标记,显著降低了流式场景下生成首个音频的延迟,实现极低延迟的实时对话能力。
- TiCodec 模块:用于将连续语音波形编码成离散 token,以及将离散 token 解码回波形。使语音与文本可以在同一个序列空间中进行统一建模。
- 非自回归(NAR)与自回归(AR)解码器:NAR 解码器一次性预测整句语音 token 的分布,速度快但准确性相对低;AR 解码器则依赖之前生成的 token,生成质量更高但速度慢。VITA-Audio 结合两者,先用 NAR 生成初步语音 token 分布,再由 AR 进行精修,兼顾速度和质量。
- 四阶段渐进式训练策略
- 第一阶段:视觉-语言对齐:通过训练视觉适配器并使用描述性字幕和视觉问答数据微调模型,建立强大的视觉能力。
- 第二阶段:音频输入微调:使用语音转录配对数据训练音频编码器,再用语音问答数据进行微调,使模型能够理解和响应音频输入。
- 第三阶段:音频输出微调:训练音频解码器,实现端到端语音输出,无需外部 TTS 模块。
- 第四阶段:多模态指令微调:进一步优化模型在多模态任务中的表现,提升其对不同模态输入的处理能力。
VITA-Audio的项目地址
- Github仓库:https://github.com/VITA-MLLM/VITA-Audio
- HuggingFace模型库:https://huggingface.co/collections/VITA-MLLM/vita-audio
- arXiv技术论文:https://arxiv.org/pdf/2505.03739
VITA-Audio的应用场景
- 智能家居控制:VITA-Audio 能理解语音指令,控制家中的智能设备,如灯光、温度、安全系统等。
- 智能客服:在线客服场景中,VITA-Audio 能同时理解用户的文字描述、图片上传或语音留言,快速准确地回答问题。
- 教育辅助:在线教育平台或学习应用中,VITA-Audio 能辅助学生学习,例如通过分析学生上传的学习资料(如课本图片、教学视频等),结合学生的提问,提供知识点讲解、习题解答等服务。
- 医疗辅助:VITA-Audio 可以帮助医生解读医学影像、分析病历数据,结合最新的医学研究文献,提供辅助诊断和治疗方案建议。
- 内容创作:在媒体公司或自媒体平台,VITA-Audio 可以辅助内容创作者生成文章、视频脚本等,通过理解创作主题和风格要求,提供创意灵感和写作建议。