InfoQ 推荐 ( ) • 2024-03-27 00:11

上周,月之暗面(Moonshot AI)公司宣布旗下对话式AI助理产品Kimi应用现已支持200万字无损上下文输入。去年10月发布时,Kimi仅支持20万字的无损上下文输入长度。而在此前,GPT-4Turbo-128k公布的数字约10万汉字,百川智能发布的Baichuan2-192K能够处理约35万个汉字。

因为在长上下文窗口技术上取得突破,月之暗面这款产品Kimi在业界和资本市场都引起了巨大的轰动,更催生了与之相关的“Kimi概念股”:近来因Kimi概念被市场高度关注的九安医疗,3月20日—22日,股票交易异常波动,收盘价格涨幅偏离值累计超20%。

Kimi之所以能够在短时间内获得如此高的关注度,与其卓越的长文本读取和解析能力密不可分。

长文本技术,即模型处理和理解超长文本内容的能力,也就是让大模型能够更全面地理解和分析复杂的文字内容,提高大模型的整体性能和准确性。

在当今信息爆炸的时代,处理大量的长文本数据成为了许多企业和个人用户的迫切需求。而Kimi正是满足了这一需求,凭借其强大的长文本处理能力,赢得了市场的广泛认可。不仅如此,Kimi的用户数量也在短时间内激增,巨大的流量涌入使得其服务器一度承受了巨大的压力,21日下午,月之暗面旗下大模型应用kimi的APP和小程序均无法正常使用。

此前,月之暗面发布情况说明:从2024.3.209:30:00开始,观测到Kimi的系统流量持续异常增高,流量增加的趋势远超对资源的预期规划。这导致了从2024.3.2010:00:00开始,有较多的SaaS客户持续的体验到429:engineisoverloaded的异常问题,并对此表示深表抱歉。

公开资料显示,月之暗面成立于2023年4月,法定代表人杨植麟毕业于清华大学交叉信息学院。截至目前,月之暗面公司已完成三笔融资,获红杉中国、真格基金等机构投资,最新一轮融资超10亿美元,投资方包括阿里、红杉中国、小红书、美团等,估值达25亿美元(约合人民币180亿元),是国内最主要的大模型独角兽之一。

然而,就在Kimi风头正劲的时候,行业内的大厂们也坐不住了,纷纷宣称他们在长文本处理能力上也有了新进展。阿里巴巴的通义千问项目开放了1000万字的长文本处理能力,这一数字远超Kimi目前能提供的200万字长文本处理能力。

360公司也不甘示弱,其360智脑开始内测500万字的长文本处理功能,并计划将其整合至360AI浏览器中。

百度作为国内互联网巨头之一,也宣布计划在下月推出200万至500万字的长文本处理能力。那么,大厂们都在卷的长文本处理能力为什么如此重要?它能切实解决哪些问题?这项能力会成为未来大模型竞争的关键差异点吗?

AI前线采访了某大模型研发公司一位技术专家Jack,他是Kimi的第一批注册用户,使用的是月之暗面宣传的20k上下文的模型。

据Jack表示,“Kimi最大的优势是对上下文的总结能力相当好,可以快速的帮助我们理解文章的重点,而其短板是,当我们需要快速定位文章的具体信息时,它就无法满足需求了,依旧是总结,而不是给出确切的信息。”

“比如进行文章辅助阅读时,Kimi对文章的章节进行总结,能大概梳理文章的内容,但是要对定位具体文章内容时,它是无法定位的,还是依靠了大语言模型的总结能力,没有更独特的处理方式。”

某数据平台公司技术专家Petter表示自己也曾测试过Kimi,当时他充值了50元钱测试了Web版本和API,让祝海林觉得有趣的是充值系统竟然是银行转账。

Petter称:“Kimi Web版本优势是很慷慨,免费无限制使用,而且可以支持大文本的输入,生成长度也还不错,生成效果中规中矩。API 版本相比较而言,价格有一定优势。”

“我主要测试的是编码和翻译类问题。编码和翻译其实都非常吃窗口,而且对生成长度也有要求,而Kimi的优势正好是长窗口支持。效果我个人认为是中规中矩,但是应该是在国内第一梯队。”

长文本能力,是赢下大模型之战的“核弹级武器”吗?

长文本处理其实应该叫窗口。如果把大模型比作一个操作系统,那么长窗口实际上就是操作系统里的内存,内存越大,应用开发会越简单。

可以看出,在大模型技术不断更新的如今,并不是Kimi一家在长文本处理能力上下足了功夫。

今年2月初,谷歌发布了Gemini 1.5Pro,这个模型最大的特点就是创下了最长上下文窗口的纪录。

根据官方披露,Gemini1.5 Pro将上下文窗口容量提到了100万token(极限为1000万token),远远超出了Gemini 1.0最初的32000个token,此前的SOTA模型也才将上下文窗口容量提高到了20万token。

这意味着Gemini1.5 Pro可以自如地处理22小时的录音、超过十倍的完整的1440页的书(587,287字)《战争与和平》,以及四万多行代码、三小时的视频。

凭借超长上下文理解能力,Gemini 1.5 Pro得到了很多用户的认可。很多测试过 Gemini 1.5 Pro 的人更是直言,这个模型被低估了。

当然,除了谷歌在卷“上下文长度”,国外其他大模型巨头们也都在这项能力上不甘示弱。去年下半年,GPT-3.5上下文输入长度从4千增长至1.6万token,GPT-4从8千增长至3.2万token;Anthropic一次性将上下文长度打到了10万token;LongLLaMA将上下文的长度扩展到25.6万token,甚至更多。

大厂都在卷的这个能力,会成为未来大模型差异化竞争的关键点吗?

Petter表示:“大模型终究需要应用落地,而应用落地很重要的一点就是长窗口支持,否则就是无穷无尽的 RAG tricks,耗费应用层工程师大量的精力,效果还要打折扣。未来长窗口将会是大模型的标配,但也会有天花板。目前来看,谁先在这一方面做得好,谁就能优先获得应用生态优势”。

就此问题AI前线还采访了某数据库厂商的技术专家Lucky,他从数据角度分析了长文本能力在大模型竞争中的重要性。

Lucky表示,“大模型的长文本能力可以视为赢得这场大模型技术之战的‘核弹级武器’之一。”

在技术层面,长文本能力的实现依赖于模型的参数量和内存容量。一个模型如果能够支持更长的上下文,就意味着它能够处理更复杂的信息,拥有更大的“内存”来学习和记忆,从而在应用效果上更加深入和广泛。比如,处理法律合同、分析市场趋势、梳理小说情节等,这些都需要模型具有处理长文本的能力。

从实际应用的角度看,长文本技术的突破使得大模型能够应对更多样化的需求。谁先突破这项技术谁就能先吃到市场的红利。例如月之暗面的Kimi Chat目前超越了市面上大多数仅支持数万字文本量的大模型。这样的技术进步使得律师、分析师等专业人士能够更方便地使用AI应用处理工作中遇到的超长文本,极大提升了工作效率和准确性,也让月之暗面收获了比以往更多的关注。

对于长文本未来的发展趋势,Petter也坦言,就像现在内存从 64k 发展到了普通PC 的128G、服务器的 1TB、总是会有个上限,这个上限在哪里由硬件显存、位置编码、算法多层等决定。

多家上市公司回应是否与Kimi合作

月之暗面初次亮相于大众视野中就自带光环:这家公司的创始人杨植麟是90后,清华大学的高材生,创始团队也备受瞩目,一年内完成了三次融资……今年2月,该公司完成了一笔巨额融资,以超过10亿美元的B轮融资,阿里巴巴领投,砺思资本和小红书跟投,投后估值达到了约25亿美元。

Kimi的火爆,引发相关概念股震动。截至3月21日收盘,华策影视20cm涨停,掌阅科技两连板,中广天择涨停,海天瑞声涨超5%,中文在线、因赛集团、慈文传媒都有不同程度涨幅。

与此同时,市场上也出现“这些企业是否和Kimi有合作”的疑问。近日,多家上市公司回应了相关问题。

中广天择在投资者互动平台上表示,公司与万兴科技的合作主要是为其音视频模型训练提供优质的版权数据,这表明中广天择在与万兴科技的合作中可能涉及到月之暗面的技术支持。

海天瑞声称过往未曾与月之暗面产生过业务合作;易点天下表示公司已接入Kimi Chat;卫宁健康表示自研医疗大模型WiNGPT目前未用到Kimi相关技术;中广天择也发公告表示目前公司和Kimi没有合作。

在回答投资者关于“公司作为自动驾驶车载中控系统供应商,是否考虑在驾驶辅助系统里面接入Kimi语言大模型、科大讯飞的星火大模型?”的问题时,华安鑫创表示,公司重视技术创新,相关内容处于内部讨论阶段,暂未接入。

月之暗面方面在接受媒体采访时表示,月之暗面的开放平台是面向所有开发者和企业用户开放的,任何合规的开发者和企业,都可以将 Kimi智能助手背后的同款大模型API接入到自己的产品或服务中。

值得注意的是,3月20日,行业大模型解决方案提供商循环智能宣布,与通用大模型公司月之暗面达成战略合作。据了解,循环智能将基于月之暗面的通用大模型,为业界提供针对各种业务场景的行业大模型解决方案及应用。

特别说明:此文章中的提到的技术专家Jack、Petter和Lucky均为化名。