说话似乎是人体最简单的行为,但要用计算机来模拟却是一件相当复杂的事情。亚马逊的Alexa、苹果的Siri,甚至b谷歌的语音助手都是最接近人类声音的人工智能,但即使是这些声音听起来也像电脑。总部位于蒙特利尔的初创公司Lyrebird开发了一种人工智能语音发生器,可以模仿任何人的声音,并带有一点自然的人类情感。这个系统还不完美,但对于初学者来说是相当出色的。我们可能正在走向一个声音像照片一样容易伪造的未来。
尽管文本转语音系统越来越先进,但只要我们继续使用配音演员预先录制的单词,它们就会出现特定的问题。这些词在句子链中组合起来听起来非常机械,没有任何灵感、情感或表达效果。不要忘记我们不得不一遍又一遍地听的单调的声音。一些人甚至抱怨语音助手只有女声。这其中有很多原因,但你不可能让任何人接受一个声音。
Lyrebird的语音模仿算法可以模仿任何人的声音,甚至可以读出带有预设情绪的文本。该算法只需要不到一分钟的预先录制的音频,就能重新生成具有完美语调的声音。该公司使用了巴拉克•奥巴马、希拉里•克林顿和唐纳德•特朗普的录音,并制作了模仿音频,作为他们宣传活动的一部分。
除了复制语音外,该系统还可以用几种不同的语调生成相同的句子。
该算法通过人工神经网络识别人的语音模式,然后使用模拟语音再现相同的模式。Lyrebird的语音合成专家Jose Sotelo解释说:“我们在一个包含数千名说话者的庞大数据集上训练我们的模型。然后,对于一个新的说话者,我们把他们的信息压缩在一个包含他们声音DNA的小钥匙里。我们用这个键来说新句子。”
目前的算法具有上述能力,但它与真正的人声还有很大的距离,存在清晰度问题。与其他同类系统相比,该系统需要的语音数据要少得多,而且最好的部分是它可以实时工作。Jose Sotelo说:“我们目前正在筹集资金,壮大我们的工程团队。我们正在努力提高音频的质量,使其不那么机器人化,我们希望很快就能开始测试。”
该公司的计划是将该系统出售给开发商,用于残疾人有声读物叙事和语音合成等应用,以及个人人工智能助手。在未来,你可以让你的语音助手听起来像任何你想要的人。
甚至在听到该算法的精彩应用之前,人们可能会想象它可能导致的道德和安全问题。一旦系统被完善到具有完美的模仿能力,它将几乎不可能区分真实的人声和模仿者算法。已经模糊不清的真理和谎言世界将变成一个完全含糊不清的混乱,任何人的虚假言论都可以用来欺骗甚至安全专家。这可能是录音可靠的时代的终结,Lyrebird意识到了这一点。
“我们严肃对待我们技术潜在的恶意应用。爱游戏ayx体育我们希望这项技术能被用于好爱游戏ayx体育的目的:把声音还给那些因病失去声音的人,能够在你生命的不同阶段记录你自己,然后在以后听到你的声音,等等。由于这项技术可能被其他爱游戏ayx体育恶意组织开发,我们认为正确的做法是将其公之于众,这样我们就不会再依赖录音[作为证据]了。
有问题就有解决方案,有一些解决方案就会产生问题。虽然这听起来很可怕,但随着照片处理软件的进步,我们都经历过图像证据不再可靠的时代。这将是相似的,但即使人类可以被模仿者愚弄,计算机也可以很好地区分伪造的声音和真实的声音。可以开发系统来检测可能是缺乏背景噪声,伪造的声学空间或任何类似的差异的迹象。
有一天,语音合成技术可能会完善到能够复制一切,可能是语音质量爱游戏ayx体育、呼吸噪音、咂嘴声或任何其他细节,到某种程度,甚至一台机器都无法区分真实的和模仿者。到那一天,所有录音或声音证据都将失去可信度。