优享资讯 | OpenAI新AI多模模型GPT-4o提供所有ChatGPT用户，速度更快，价格减半

新聞 | iThome ( ) • 2024-05-14 13:25

OpenAI新AI多模模型GPT-4o提供所有ChatGPT用户，速度更快，价格减半

OpenAI提供多段影片展示GPT-4o模型的语音理解与输出能力，包括和多位使用者就某个主题进行对谈。（图片来源／OpenAI）

经过上周卖关子吊足媒体胃口之后，OpenAI昨（13）日宣布最新多模AI模型GPT-4o，将提供给所有ChatGPT服务，包括免费版本。对开发人员而言，新模型比GPT-4T速度快2倍，限制频宽提高5倍，价格仅一半。

OpenAI执行长Sam Altman指出，GPT-4o更聪明，更快，且具原生多模能力。文字及图片输入能力现在将逐步部署到ChatGPT，包括免费版，但暂时不能生成图片，也还不会输出、输入语音。

最新宣布让上周猜测的媒体扑了个空。彭博、The Information、路透社相继报导OpenAI将推出搜寻服务挑战Google及Perplexity AI。但周末Altman预告，不是GPT-5，也不是搜寻引擎，而是「像魔法一般的」ChatGPT及GPT-4更新功能。

GPT-4o的o代表的是omni，意谓著可接受文字、声音和图像任何组合的提示输入，而且生成的输出也可以是文字、声音和图像的整合。OpenAI强调GPT-4o具高效能，平均320毫秒即可对声音输入产生回应，等同人类反应时间，最快则只需232毫秒。

一如所有厂商公布新模型的作法，OpenAI也提供数据，显示GPT-4o视觉及声音理解能力比前代及竞争者更优异，其中在文字、理解、程式撰写效能已具GPT-4 Turbo水准，在多语能力（尤其是英文）、声音翻译和视觉理解能力都比GPT-4、GPT-4T、Claude 3 Opus、Gemini Pro 1.5、Meta Llama3 400b来得高。

图片来源／OpenAI

OpenAI解释新模型的语音模式效能提升的原因。过去GPT-3.5及GPT-4下的语音模式运作是以三个模型接续运作而成：第一个模型将声音转录成文字，由GPT-3.5或GPT-4产出文字对话内容，再由第三个模型将文字转回声音。不但增长延迟性，且因过程中GPT-3.5或GPT-4模型丧失大量资讯，使其无法观察出声调、多名说话者、背景噪音，也无法产出笑声、不会唱歌或表达情绪。但GPT-4o是能具备文字、视觉和声音理解能力的单一模型，输出输入都在同一神经网路中处理而成，使互动能力速度和表现丰富度大增。

OpenAI并提供多段影片展示新模型的能力，包括二个GPT-4o为基础的聊天机器人扮演手机业者客服中心人员和客户交谈；一个聊天机器人问问题，另一个则描述它「看」到的OpenAI员工影像描述，前者还能根据其描述即兴创作歌唱；以及聊天机器人可和OpenAI员工流畅对谈，其间还能发出笑声，或是在人类插嘴打断时自动停下来。

影片中的聊天机器人声音自然生动，媒体形容很像Altman最喜欢的电影《云端情人》（Her）女主角Scarlett Johansson的声音。

不过，在说明GPT-4o强大能力后，OpenAI强调它的安全性。根据其整备度框架（Preparedness Framework）及人类评估，新模型在网路安全、CBRN（化学、生物、放射及核能）威胁、诱骗（persuasion）能力及模型自主能力都在中度以下。该公司也强调GPT-4o经过外部团队及70多名外部跨领域专家评估，协助减低可能的社会心理、偏见及假讯息风险。

OpenAI今天起将GPT-4o的文字及图像输入、以及文字输出能力逐步部署到所有ChatGPT，包括免费版，但付费的Plus版，讯息输入上限为5倍之多。为了因应ChatGPT语音模式（voice mode）可能的语音deepfake风险，声音输出仅局限数种限定的声音，也说都会遵循现有安全政策。GPT-4o为基础的语音模式alpha版，未来几个星期内只会提供给ChatGPT Plus。

针对开发人员，现在可以API存取GPT-4o文字和视觉模型。相较GPT-4 Turbo，新模型速度快2倍，限制频宽提高5倍，价格仅一半。OpenAI计划几周内，会对少数用户及信任伙伴提供声音和影片功能。