亚马逊的新Nova Sonic AI模型具有“更类似人类的声音”

Nova Sonic的声音AI模型可以响应说话者的话,以及他们的语气,调音和节奏。

Amazon Nova Canvas是开发人员创建高质量图像的基础模型。图片:亚马逊

亚马逊是揭露语音AI模型的最新技术巨头。根据亚马逊的说法,它的Nova Sonic是“将语音理解和语音产生统一为单个模型的新基础模型,以在AI应用中实现更类似人类的语音对话。” Nova Sonic将与OpenAI,Google和其他科技公司的类似AI模型竞争。

Nova Sonic不仅了解说话者的话,而且还可以处理语气,风格和节奏。 AI语音生成器适应了对话上下文,因此与第一代Alexa的模型相比,对话更自然地流动。 Nova Sonic可以这样做,因为它将多个语音处理和生成功能结合到单个AI模型中,而不是使用多个不同的模型。

传统上,AI语音工具涉及按顺序运行多个模型的AI语音工具:语音识别模型将语音转换为文本,然后大型语言模型(LLM)将处理输入文本并生成响应,最后一个文本到语音模型将文本模型转换回音频。这种复杂的管道经常剥夺了扬声器原始对话的语气,风格和节奏。

由于Nova Sonic将所有这些结合在一个模型中,因此它可以适应输入语音的声学背景。它也更自然地对人类言论的节奏做出了自然的反应。例如,当说话者犹豫不决或停下来呼吸时,它不会中断。

如何获得Nova Sonic

Nova Sonic目前可通过该公司的企业应用程序构建平台亚马逊基岩的新API获得,并将简化语音应用程序的开发。

开发人员需要了解亚马逊诺瓦

这家科技巨头最近推出了Amazon Nova Act,这是一种新的AI模型,训练有素,可以在网络浏览器中执行操作。此外,还有一个Amazon Nova SDK供开发人员探索。基础模型之一是用于生成高质量图像的Nova帆布。还有一些模型来生成来自不同模式的文本以及文本和图像输入的视频。

也可以阅读

Kara Sherrer是一位内容作家和编辑,在各种行业(包括技术,金融和高等教育)中为出版物和客户工作了近10年的经验。使用SEO最佳实践,她帮助多个客户在Google搜索结果的首页上获取其网站内容。她喜欢编写基于事实的,信息丰富的指南,以帮助读者就应该使用哪些产品和软件做出有根据的决定。