36氪 - 最新资讯频道 ( ) • 2024-03-05 17:39

Anthropic的创始人达里奥·阿莫迪(Dario Amodei)和丹妮拉·阿莫迪(Daniela Amodei)告诉《福布斯》,该公司周一发布的以企业解决方案为重点的新模型——Claude 3优于竞争对手GPT-4和谷歌(Google)的Gemini 1.0 Ultra。

Open AI或谷歌被追平比分可能只是Anthropic发布新产品的一个小噱头,更大关注点应该落在人工智能公司面对未来所选择的商业化路径上。头部大模型公司已经站在了一个十字路口上,当Inflection、Character.AI甚至OpenAI等公司进一步涉足消费者用例时,Anthropic一头扎向了企业客户。

联合创始人达里奥·阿莫迪和丹妮拉·阿莫迪兄妹说,Claude 3的发布再次表明,“Anthropic更像是一家企业公司,而不是一家消费者公司。”

Anthropic在北京时间昨日晚,发布了一系列新的大型语言模型。这家人工智能公司称这些模型是迄今为止世界上最智能的模型,性能超过了竞争对手OpenAI和谷歌。

Anthropic的新“家族”模型被称为Claude 3,有Opus、Sonnet和Haiku三个版本,性能和价格各不相同。该公司表示,Opus是功能最强大、价格最昂贵的版本,在一系列衡量智能的基准测试中,其性能超过了OpenAI的GPT-4和谷歌的Gemini 1.0 Ultra。Opus和中级产品Sonnet已于周一上市,Haiku将在稍后公布的日期发布。

联合创始人兼首席执行官达里奥·阿莫迪在接受采访时说,该机型系列在设计时考虑到了不同的业务应用案例。他补充道:“至少从评估结果来看,Claude 3 Opus在许多方面都是全球范围内执行各种任务性能最好的机型。”

根据该公司公布的基准,在包括本科常识(MMLU)、小学数学(GSM8K)、计算机代码(HumanEval)和问答知识(ARC-Challenge)在内的一些热门测试科目上,Claude 3 Opus的表现优于OpenAI的GPT-4和谷歌的Gemini 1.0 Ultra。在一般知识基准测试中,Claude 3 Opus的表现也优于开源人工智能独角兽Mistral上周发布的顶级模型Mistral Large。

不过,大多数用户会看到的Claude 3版本,即Claude 3 Sonnet,其性能与GPT-4不相上下:在某些基准测试中领先,而在其他基准测试中落后。阿莫迪承认,Anthropic 的基准测试没有考虑OpenAI和谷歌最近的更新(GPT-4 Turbo和Gemini 1.5 Pro),因为它们的同行尚未发布相应的测试评估。他说:“如果我们的表现没有竞争力,我会非常惊讶。”

Claude 3 Opus的价格为每百万字符串输入15美元(相当于2500页书的文本),每百万字符串输出75美元,比OpenAI的GPT-4 Turbo预览版还要贵,后者的价格分别为每百万字符串10美元和30美元。阿莫迪和联合创始人兼妹妹丹妮拉·阿莫迪告诉《福布斯》,他们希望Opus能被那些需要最尖端性能的企业用于复杂数据分析和生物医学研究等功能。

他们补充说,相比之下Claude 3 Sonnet(价格便宜五倍)对大多数任务都有意义,其用途包括大型数据存储的搜索和检索、销售预测、有针对性的营销和代码生成。

成本最低的Claude 3 Haiku型号的成本仅为Claude 2的几分之一,便于与客户进行实时互动、内容管理和物流库存管理。Haiku版本的性能仍与Anthropic八个月前发布的前代机型Claude 2旗舰版相当。达里奥·阿莫迪说:“与同级别的其他机型相比,它非常具有竞争力。这是很大的进步。”

据报道,Anthropic的基准性能使Claude 3 Opus领先于OpenAI的GPT-4等竞争对手。图片来源:ANTHROPIC

所有三种型号都将允许提示多达20万个字符串(大约一本书的大小),超过GPT-4 Turbo支持的12.8万个字符串。Anthropic 表示,Opus用户在某些用途上可以申请100万个字符串的限制,这与谷歌为Gemini 1.5 Pro部分用户提供的上限相匹配。

Anthropic由从OpenAI辞职的七名研究人员组建,其目标历来是通过更深入地关注人工智能的安全性,将自己与其前身以及该领域的其他公司区分开来。一些业内人士不禁想问,这是否已经拖慢了该公司的脚步,并且他们最近几个月在社交媒体以及其他地方对其模型性能提出了质疑。在一个很受欢迎的由人类评估者组成的众包排行榜上,Claude 1目前的评分高于其后继者Claude 2.0和更新版Claude 2.1。

达里奥·阿莫迪认为,这些评价只是人类对数量有限的消费任务进行的评估。他承认,虽然Claude 2比其前身更安全,Anthropic的研究人员对此表示满意,但这是以更高的 "错误拒绝率 "为代价的,即拒绝接受模型认为过于接近其安全界限的提示。Anthropic声称,Claude 3系列在避免这些拒绝方面的表现比前几代产品要好得多。内容接近其安全限制的无害提示被拒绝的比例约为10%,而Claude 2.1则为25%。阿莫迪说:“现在,我们正朝着在二者之间取得更多平衡的方向迈进,以求两全其美。以正确的方式划定复杂的边界真的很难。我们一直在努力完善。”

Inflection、Character.AI甚至OpenAI等公司已经进一步涉足消费者用例,而Anthropic则专注于企业客户。Anthropic的免费消费者聊天机器人(也被称为Claude)的用户现在可以访问Sonnet,而想要试用Opus的个人则需要订阅每月20美元的付费版本。但 丹妮拉·阿莫迪说,Claude 3的发布更多考虑的是商业用例。Claude的客户包括科技公司Gitlab、Notion、Quora和Salesforce(Anthropic的投资者);金融巨头桥水公司(Bridgewater)和企业集团SAP,以及商业研究门户网站LexisNexis、电信公司SK Telecom和丹娜法伯癌症研究所(Dana-Farber Cancer Institute)。

专注于人工智能的高管埃里克·佩尔兹(Eric Pelz)在一份声明中说,在Claude 3的早期测试用户中,生产力软件制造商Asana发现初始响应时间缩短了42%。同一家软件公司Airtable表示,它已将Claude 3 Sonnet集成到自己的人工智能工具中,以帮助加快内容创建和数据汇总。

至于Claude 3的训练成本——计算量和时间——Anthropic的联合创始人拒绝透露。虽然Claude 2是去年7月发布的,但阿莫迪说,这并不意味着什么,因为公司有时会同时训练多个模型,这取决于图形处理器集群的可用性。

据《福布斯》报道,Anthropic公司最近以184亿美元的估值融资7.5亿美元,该公司计划在未来几个月内增加代码解释、搜索功能和源代码引用等功能。阿莫迪说:“我们将继续扩大模型规模,让它们变得更加智能,同时也继续努力让更小、更便宜的模型变得更智能、更高效。一整年都会有不同程度地更新。”

本文译自

https://www.forbes.com/sites/alexkonrad/2024/03/04/anthropic-releases-claude-3-claims-beat-openai/?sh=12350c3357bc

本文来自微信公众号“福布斯”(ID:forbes_china),作者:Alex Konrad、Kenrick Cai,36氪经授权发布。