发布时间:2024-07-16 09:23

美媒:微软AI语音生成器重现人声引担忧

  参考消息网7月13日报道 据美国趣味科学网站7月10日报道,科学家称,微软公司开发的新型人工智能(AI)语音生成器“达到了与人类相当的水平……但它太危险了,不能公开发布”。

 

  报道称,VALL-E 2是一个文本转语音(TTS)生成器,只需利用几秒钟的音频就能重现说话人的声音。其效果非常逼真,以至于无法向公众发布。

 

  微软研究人员在6月17日发表在预印本文献库上的一篇论文中称,VALL-E 2能够“准确、自然地生成与原说话人完全相同的语音,其生成的语音可与人类相媲美”。换句话说,这一新的AI语音生成器足够逼真,会让人误以为这是真人在说话——至少它的创造者是这么认为。

 

  微软研究人员在论文中写道:“VALL-E 2代表着神经编解码语言模型的最新进展,它标志着零样本文本转语音合成的一个里程碑,并首次达到与人类语音相当的水平。”

 

  论文还说:“此外,VALL-E 2能够始终如一地合成高质量语音,即使是那些传统上因其复杂性或重复短语而具有挑战性的句子也不例外。”

 

  这里所说的“与人类语音相当的水平”是指在微软使用的基准测试中,VALL-E 2生成的语音与人类语音质量相当,甚至比后者更高。

 

  该AI引擎之所以能够做到这一点,是因为其包含了两个关键功能:“重复感知采样”和“分组代码建模”。

 

  重复感知采样通过解决“词元”(语言的最小单位,比如单词或单词片段)的重复问题,改进了AI将文本转换为语音的方式,从而避免在解码过程中声音或短语出现无限循环。换句话说,这一功能有助于改进VALL-E 2的语音模式,使其听起来更流畅、更自然。

 

  与此同时,分组代码建模功能通过减少序列长度(即模型在单个输入序列中处理的词元数量)来提高效率。这加快了VALL-E 2生成语音的速度,并有助于解决处理长串声音时遇到的困难。

 

  研究人员使用语音资料库LibriSpeech和VCTK中的音频样本来评估VALL-E 2与说话人录音的相似程度。他们还使用了ELLA-V(一个用于衡量生成语音的准确性和质量的评估框架)来确定VALL-E 2能在多大程度上有效处理更复杂的语音生成任务。

 

  研究人员写道:“我们基于LibriSpeech和VCTK数据集进行的实验表明,VALL-E 2在语音的稳健性、自然度、与说话人相似度方面都超越了之前的零样本TTS系统。它是同类产品中第一个在这些基准上达到与人类相当水平的系统。”

 

  研究人员在论文中指出,VALL-E 2的输出质量取决于语音提示的长度和质量,以及背景噪音等环境因素。

 

  尽管VALL-E 2功能强大,但由于其存在潜在的滥用风险,微软不会向公众发布VALL-E 2。这与人们对语音克隆和深度伪造技术的担忧与日俱增不谋而合。诸如开放人工智能研究中心(OpenAI)等其他AI公司也对其语音技术做出了类似的限制。

 

  微软研究人员在一篇博客文章中写道:“VALL-E 2纯粹是一个研究项目。目前,我们还没有将VALL-E 2纳入产品或向公众开放的计划。在模型被滥用方面,它可能存在潜在的风险,比如欺骗语音识别系统或冒充特定的说话人。”

 

  尽管如此,他们确实表示,AI语音技术在未来可能会有实际应用。研究人员称:“VALL-E 2可以合成维持说话人身份的语音,它可被用于教育学习、娱乐、新闻工作、自创内容、无障碍功能、交互式语音应答系统、翻译、聊天机器人等领域。”