新聞 | iThome ( ) • 2024-05-14 13:25

OpenAI提供多段影片展示GPT-4o模型的语音理解与输出能力,包括和多位使用者就某个主题进行对谈。(图片来源/OpenAI)

经过上周卖关子吊足媒体胃口之后,OpenAI昨(13)日宣布最新多模AI模型GPT-4o,将提供给所有ChatGPT服务,包括免费版本。对开发人员而言,新模型比GPT-4T速度快2倍,限制频宽提高5倍,价格仅一半。

OpenAI执行长Sam Altman指出,GPT-4o更聪明,更快,且具原生多模能力。文字及图片输入能力现在将逐步部署到ChatGPT,包括免费版,但暂时不能生成图片,也还不会输出、输入语音。

最新宣布让上周猜测的媒体扑了个空。彭博The Information路透社相继报导OpenAI将推出搜寻服务挑战Google及Perplexity AI。但周末Altman预告,不是GPT-5,也不是搜寻引擎,而是「像魔法一般的」ChatGPT及GPT-4更新功能。

GPT-4o的o代表的是omni,意谓著可接受文字、声音和图像任何组合的提示输入,而且生成的输出也可以是文字、声音和图像的整合。OpenAI强调GPT-4o具高效能,平均320毫秒即可对声音输入产生回应,等同人类反应时间,最快则只需232毫秒。

一如所有厂商公布新模型的作法,OpenAI也提供数据,显示GPT-4o视觉及声音理解能力比前代及竞争者更优异,其中在文字、理解、程式撰写效能已具GPT-4 Turbo水准,在多语能力(尤其是英文)、声音翻译和视觉理解能力都比GPT-4、GPT-4T、Claude 3 Opus、Gemini Pro 1.5、Meta Llama3 400b来得高。

图片来源/OpenAI

OpenAI解释新模型的语音模式效能提升的原因。过去GPT-3.5及GPT-4下的语音模式运作是以三个模型接续运作而成:第一个模型将声音转录成文字,由GPT-3.5或GPT-4产出文字对话内容,再由第三个模型将文字转回声音。不但增长延迟性,且因过程中GPT-3.5或GPT-4模型丧失大量资讯,使其无法观察出声调、多名说话者、背景噪音,也无法产出笑声、不会唱歌或表达情绪。但GPT-4o是能具备文字、视觉和声音理解能力的单一模型,输出输入都在同一神经网路中处理而成,使互动能力速度和表现丰富度大增。

OpenAI并提供多段影片展示新模型的能力,包括二个GPT-4o为基础的聊天机器人扮演手机业者客服中心人员和客户交谈;一个聊天机器人问问题,另一个则描述它「看」到的OpenAI员工影像描述,前者还能根据其描述即兴创作歌唱;以及聊天机器人可和OpenAI员工流畅对谈,其间还能发出笑声,或是在人类插嘴打断时自动停下来。

影片中的聊天机器人声音自然生动,媒体形容很像Altman最喜欢的电影《云端情人》(Her)女主角Scarlett Johansson的声音。

不过,在说明GPT-4o强大能力后,OpenAI强调它的安全性。根据其整备度框架(Preparedness Framework)及人类评估,新模型在网路安全、CBRN(化学、生物、放射及核能)威胁、诱骗(persuasion)能力及模型自主能力都在中度以下。该公司也强调GPT-4o经过外部团队及70多名外部跨领域专家评估,协助减低可能的社会心理、偏见及假讯息风险。

OpenAI今天起将GPT-4o的文字及图像输入、以及文字输出能力逐步部署到所有ChatGPT,包括免费版,但付费的Plus版,讯息输入上限为5倍之多。为了因应ChatGPT语音模式(voice mode)可能的语音deepfake风险,声音输出仅局限数种限定的声音,也说都会遵循现有安全政策。GPT-4o为基础的语音模式alpha版,未来几个星期内只会提供给ChatGPT Plus。

针对开发人员,现在可以API存取GPT-4o文字和视觉模型。相较GPT-4 Turbo,新模型速度快2倍,限制频宽提高5倍,价格仅一半。OpenAI计划几周内,会对少数用户及信任伙伴提供声音和影片功能。