优享资讯 | OpenAI 公布声音克隆新技术，仅需 15 秒音频样本即可模仿任何说话者，将带来哪些影响？

知乎热榜 ( ) • 2024-03-30 11:14

invalid s的回答

早就有了。

起码好几年前，AI就能搞“声纹模拟”技术了；只是当时需要稍微长一些的语音信息（比如30秒到5分钟），现在不过是需要的语音样本更少了而已。

如果说影响嘛，其实没什么影响。也就有一些“高科技”的声纹锁是通过“声纹识别”辨别是否主人的，但这种锁向来都知道它不安全，十几二十年前就能人工合成惟妙惟肖、可以通过声纹识别的音频了。

其实你用过导航的话，肯定知道高德的林志玲语音、郭德纲语音等等。这些其实就包含了声纹合成技术——而这些技术起码十几年前已经在导航软件里使用很久了。

声纹合成说起来也很简单：普通话的声韵母数量是有限的，而每个人发声时，同样的声母、韵母又总是一样的（当然有点声调的区别，但这个区别很好模拟）——这就决定了只需很少的信息就可以完整模拟你的声音。

这就是第一代声纹模拟软件的工作原理。

更进一步的，每个人的声带、口腔、鼻腔的声学特性是不变的；因此，压根不需要你把几百个声母、韵母组合都“表演”一遍——只要采集到了你的声音基频、泛音频率以及强度分布，就足够模拟你的声音了。

这是神经网络（也就是现在说的AI）的工作原理。

当然，这样模拟出来可能不对；因此需要多采集几个音、用于纠正AI拟合不对的地方。

因此，15秒的重要性，远高于“模仿说话者”——后者是早已解决的技术，前者则代表了“AI训练效率得到了大幅提高”。

换句话说，这个信息意味着OpenAI在当前AI浪潮中的霸主地位，意味着它可以借助这个技术、大幅度提高大模型等领域的训练效率，降低训练AI所需的各种成本、推高AI的能力上限。

至于说诈骗攻击……这是不值一提的小事。十几年前就能搞定的东西了，现在再提无非是炒炒热度而已。

你最需要小心的，是你的个人信息。还是那句话：

这张街拍照片上的两位美女叫什么名字？是什么地方的人？她的手机号码多少？她妈叫什么？手机号码多少？

你看，你的隐私至关重要。只要不知道你的姓名、电话号码、你的亲人的电话号码，诈骗者就无从下手。

别人必须先把你的声音、你家人的电话号码关联起来，才能实施诈骗；而这个诈骗可以有无数种手段，多一个少一个声纹模拟压根无碍大局。