优享资讯 | OpenAI展示新音频工具可朗读文本并模仿声音

cnBeta.COM - 中文业界资讯站 ( ) • 2024-04-01 20:00

OpenAI公布了一项功能的早期测试结果，该功能可用令人信服的人声朗读文字。这彰显了人工智能的一个新领域，并引发了关于深度伪造的担忧。该公司分享了名为“语音引擎”（Voice Engine）的文本转语音模型小规模试用的早期演示和用例，据发言人介绍，目前约有10家开发商可使用该模型。OpenAI在3月早些时候向记者介绍了这一功能，但决定暂不大规模发布。

OpenAI的发言人说该公司在收到政策制定者、行业专家、教育工作者和创意人士等利益相关方的反馈后决定缩减发布规模。据早前的新闻发布会介绍，该公司原本计划通过申请流程向多达100家开发商发布该工具。

其他AI技术已经在某些情境下被用来伪造声音。今年1月，一通自称乔·拜登（Joe Biden）总统打来的以假乱真的电话呼吁新罕布什尔州居民不要在初选中投票，这一事件在全球关键选举前加剧了对AI的恐惧。

与OpenAI过去生成音频的功能不同，语音引擎可以创建听起来像具体个人的声音，并完整呈现特有的语调和语气。该软件只需要一段15秒的录音，即可重现一个人的声音。

“只要音频设置得当，基本就能得出人类水准的声音。”OpenAI产品负责人杰夫·哈里斯（Jeff Harris）说，“这种技术质量非常了不起。”但哈里斯也表示，“准确模仿人类语音的能力显然存在很多安全上的不确定性。”

非营利性医疗系统Lifespan旗下的Norman Prince Neurosciences Institute是OpenAI目前的开发合作伙伴之一，该机构正在利用此项技术帮助患者恢复声音。例如，据OpenAI的博客文章，该工具被用于恢复一位因脑瘤失去清晰说话能力的年轻患者的声音，方法是复制她此前为一个学校项目录制的发言。

OpenAI的自定义语音模型还可将生成的音频翻译成不同语言。这对于音频行业公司非常有用，比如Spotify Technology SA。Spotify已经在自己的试点计划中利用该技术来翻译莱克斯·弗里德曼（Lex Fridman）等热门主持人的播客节目。OpenAI还宣传了该技术的其他有益应用，例如为儿童教育内容创建更多样化的声音。

在测试计划中，OpenAI要求合作伙伴同意其使用政策，即在使用原始声音前征得声音主人的同意，并告知听众他们听到的是AI生成的声音。该公司还加入了听不见的音频水印，以判断哪些音频由其工具创建。

OpenAI表示在决定是否大范围发布该功能前，正在征求外部专家的反馈。该公司在博文中表示：“让全球人民了解这项技术的发展方向至关重要，不论我们最终是否亲自广泛部署它。”

OpenAI还写道，希望其软件的试用能“激发增强社会韧性的需求”，以应对更先进的AI技术带来的挑战。例如，该公司呼吁银行逐步停止将语音身份验证作为访问银行账户和敏感信息的安全措施。它还寻求开展公众教育，帮助大家了解欺骗性的AI内容，并开发更多技术来检测音频内容是否由AI生成。