知乎热榜 ( ) • 2024-03-30 11:14
invalid s的回答

早就有了。

起码好几年前,AI就能搞“声纹模拟”技术了;只是当时需要稍微长一些的语音信息(比如30秒到5分钟),现在不过是需要的语音样本更少了而已。


如果说影响嘛,其实没什么影响。也就有一些“高科技”的声纹锁是通过“声纹识别”辨别是否主人的,但这种锁向来都知道它不安全,十几二十年前就能人工合成惟妙惟肖、可以通过声纹识别的音频了。


其实你用过导航的话,肯定知道高德的林志玲语音、郭德纲语音等等。这些其实就包含了声纹合成技术——而这些技术起码十几年前已经在导航软件里使用很久了。


声纹合成说起来也很简单:普通话的声韵母数量是有限的,而每个人发声时,同样的声母、韵母又总是一样的(当然有点声调的区别,但这个区别很好模拟)——这就决定了只需很少的信息就可以完整模拟你的声音。

这就是第一代声纹模拟软件的工作原理。


更进一步的,每个人的声带、口腔、鼻腔的声学特性是不变的;因此,压根不需要你把几百个声母、韵母组合都“表演”一遍——只要采集到了你的声音基频、泛音频率以及强度分布,就足够模拟你的声音了。

这是神经网络(也就是现在说的AI)的工作原理。


当然,这样模拟出来可能不对;因此需要多采集几个音、用于纠正AI拟合不对的地方。

因此,15秒的重要性,远高于“模仿说话者”——后者是早已解决的技术,前者则代表了“AI训练效率得到了大幅提高”。


换句话说,这个信息意味着OpenAI在当前AI浪潮中的霸主地位,意味着它可以借助这个技术、大幅度提高大模型等领域的训练效率,降低训练AI所需的各种成本、推高AI的能力上限。


至于说诈骗攻击……这是不值一提的小事。十几年前就能搞定的东西了,现在再提无非是炒炒热度而已。

你最需要小心的,是你的个人信息。还是那句话:

这张街拍照片上的两位美女叫什么名字?是什么地方的人?她的手机号码多少?她妈叫什么?手机号码多少?


你看,你的隐私至关重要。只要不知道你的姓名、电话号码、你的亲人的电话号码,诈骗者就无从下手。

别人必须先把你的声音、你家人的电话号码关联起来,才能实施诈骗;而这个诈骗可以有无数种手段,多一个少一个声纹模拟压根无碍大局。