我要投稿

Nova Sonic – 亚马逊推出的新型生成式 AI 语音模型

AI老司机 AI行业动态

2025-04-10 0 190

Nova Sonic是什么

Nova Sonic 是亚马逊推出的新型生成式 AI 语音模型。将语音理解与生成能力整合到一个模型中，能根据说话者的语调、风格等声学上下文调整生成的语音响应，对话更自然。Nova Sonic 支持多语言，目前对美国英语和英国英语的语音理解表现出色，支持多种说话风格和不同口音。平均单词错误率低至4.2%，在多语言 LibriSpeech 基准测试中表现优于 OpenAI 的 GPT-4o-transcribe 模型。

Nova Sonic的主要功能

原生语音处理：能高效处理语音输入生成自然流畅的语音输出，提升交互效果。
高准确性：采用 HiFi 语音识别技术，在嘈杂环境或用户发音不清晰时，能准确理解意图，在多语言 LibriSpeech 基准测试中，英语、法语、意大利语、德语和西班牙语的平均单词错误率仅为 4.2%。
自然对话能力：能捕捉说话者的停顿、打断等情况，在合适的时机发言，对话更自然流畅。
实时信息获取：可智能判断何时从互联网获取实时信息，为用户提供最优解。
强大的请求路由能力：能根据上下文信息，将用户请求路由到不同 API，灵活调用互联网信息、解析专有数据源或在外部应用程序中采取行动。
文本记录生成：可为用户的语音生成文本记录，开发者可将这些文本用于各种应用场景。
低延迟与高性价比：平均感知延迟仅为 1.09 秒，比 OpenAI 的 GPT-4o 模型更快，价格比 OpenAI 的 GPT-4o 便宜约 80%，是市场上最具成本效益的 AI 语音模型之一。
支持多种语言和风格：目前支持美国英语和英国英语等多种说话风格和不同口音，计划扩展对更多语言和口音的支持。

Nova Sonic的技术原理

高精度语音识别：Nova Sonic 采用了 HiFi 语音识别技术，在嘈杂环境或用户发音不清晰的情况下，准确理解用户的意图。在多语言 LibriSpeech 基准测试中，Nova Sonic 在英语、法语、意大利语、德语和西班牙语上的平均单词错误率（WER）仅为 4.2%，显著优于其他竞品。
双向流式 API：Nova Sonic 通过亚马逊的 Bedrock 开发者平台提供服务，采用创新的双向流式 API 接口。能实现音频输入和输出的实时双向流式传输，确保对话的流畅性。

Nova Sonic的项目地址

项目官网：https://www.aboutamazon.com/news/innovation-at-amazon/nova-sonic

Nova Sonic的应用场景

客户服务：可用于构建自动化的客户服务呼叫中心，能理解客户的问题并提供准确的解答，根据客户的情绪调整回应的语气。
旅游：可作为虚拟旅游助手，帮助用户规划行程、预订机票和酒店等。
教育：可用于开发语言学习应用，为学习者提供实时发音反馈，帮助他们提高语言能力。
医疗保健：可协助医生与患者进行沟通，提供医疗信息和建议。
娱乐：可用于创建语音交互式的游戏和虚拟角色，提升用户的娱乐体验。

收藏点赞 (0)

若非本站原创的文章，特别作如下声明：
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用，不代表任何监管机构的立场和观点。
不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息，均为转载，版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材，请版权所有者联系我们，我们将及时补上或者删除，共同建设自媒体信息平台，感谢你的支持！

AI老司机 AI行业动态 Nova Sonic – 亚马逊推出的新型生成式 AI 语音模型 https://www.ailsj.cn/1306.html