InfoQ 推荐 ( ) • 2024-06-24 18:24

OpenAI收购数据库公司Rockset

近日,OpenAI正式宣布收购Rockset——这是一款以数据索引及查询功能而闻名的实时分析数据库。OpenAI 在其官方博客上发表的一篇文章中表示,它将整合 Rockset 的技术来“为其所有产品的基础设施提供支持”。

 

Rockset 团队的成员将加入 OpenAI,而 Rockset 的现有客户也将“逐步”离开 Rockset 平台。完整文章如下:

 

AI技术有望改变个人和组织运用自身数据的方式,也正因如此,我们(OpenAI)决定收购Rockset。Rockset是一款领先的实时分析数据库,可提供国际一流的数据索引与查询功能。 Rockset使得用户、开发人员及企业在使用AI产品及构建智能化应用程序时,能够更好地运用自身数据并访问实时信息。 我们将整合Rockset技术以支持OpenAI的跨产品检索基础设施,收购完成后Rockset旗下卓越的团队成员也将加入OpenAI。 OpenAI公司首席运营官Brad Lightcap介绍称,“Rockset的基础设施能够帮助企业客户将其数据转化为可操作的情报。我们很高兴能够将Rockset的底层技术整合进OpenAI产品,从而为客户提供更多助益。” Rockset公司CEO Venkat Venkataramani也指出,“我们很高兴加入OpenAI,通过为AI方案引入强大检索功能的形式,帮助用户、企业及开发人员得以充分利用其数据。” Rockset功能的整合工作已经启动,敬请期待更多后续消息。

 

此次收购中的财务条款细节尚未披露。

Rockset 由前 Facebook 工程师 Venkat Venkataramani 和 Tudor Bosman 以及数据库架构师 Dhruba Borthakur 于 2016 年共同创立,提供基于云的实时分析数据库,允许开发人员构建数据密集型应用程序。值得注意的是,这支团队构建了RocksDB,这是 Google LevelDB 的一个分支,LevelDB 是由 Jeff Dean 亲自编写的可嵌入 NoSQL 数据库。

 

Venkat Venkataramani 担任创始人兼CEO,曾任Facebook基础设施团队的工程总监,所带领的团队为15亿用户管理在线数据服务;更早之前,Venkat在甲骨文公司担任主要技术人员,同样从事数据库工作。

 

Dhruba Borthakur是公司联合创始人兼CTO,他也同样在Facebook从事过数据库工作,还是Hadoop分布式文件系统的创始工程师之一,以及开源Apache HBase项目的贡献者。

 

Tudor Bosman担任公司架构负责人,他硕士毕业于斯坦福计算机系,也曾在Facebook工作过多年,是Facebook搜索引擎Unicorn的领导者,还曾在甲骨文、谷歌等公司担任软件工程师。

 

多年来,Rockset 产品不断从 Kafka、MongoDB、DynamoDB 和 S3 等产品中提取和索引数据,从而实现无需预定义架构的实时查询。Rockset 使用开源 RocksDB 持久键值存储作为基础,充当 OLTP 数据库、数据湖和流媒体平台的外部二级索引。这可以加速实时分析查询并为主要事务系统提供性能隔离。

 

Rockset 的数据库平台支持推荐引擎、物流跟踪仪表板等,以及与 OpenAI 特别相关的金融科技和电子商务等领域的聊天机器人。

 

据Crunchbase 数据显示,在被收购之前, Rockset已成功从 Icon Ventures、Sequoia 和 Greylock 等投资者手中筹集了超过 1.175 亿美元的资金。该公司还拥有 Meta 和 JetBlue 等知名客户,这些客户将 Rockset 用作其航班延误预测聊天机器人的组件。

OpenAI为何决定收购Rockset?

 

此次收购Rockset 是 OpenAI 继Global Illumination之后进行的第二笔公开收购,Global Illumination 是一家总部位于纽约的初创公司,利用人工智能构建创意工具和基础设施。

 

OpenAI为何会收购Rockset技术?收购完成后,OpenAI 会用 Rockset 的技术构建什么?

 

OpenAI在文章中表示收购Rockset是为其自家跨产品检索基础设施提供支持。由此可以明确看出,对实时数据的访问和处理技术已经成为当前AI军备竞赛中的重要一环。此外,OpenAI也将通过收购Rockset吸纳一支经验丰富的实时分析专家团队,为OpenAI的能力增强贡献力量。

 

简而言之,OpenAI 是想将其内部的各个大模型“扎根”在公司的数据上,这也许可以帮助减少其大模型的幻觉或更容易对针对任意数量的业务用例对模型进行微调。

 

Venkataramani 也在随公告发布的博客文章中给出了Rockset融入OpenAI后的发展规划预览:“像 Rockset 这样的先进检索基础设施将使 AI 应用更加强大和实用,”他写道。“Rockset 将成为 OpenAI 的一部分,并为 OpenAI 产品套件的检索基础设施提供支持。我们将帮助 OpenAI 解决 AI 应用大规模面临的数据库难题。”

 

对于OpenAI此次的大手笔收购,有分析人士认为,这笔收购其实是从本质上说明了向量数据库无法真正地解决“人工智能内存”问题。

 

从去年开始,与向量数据库相关的话题一直很火热,几乎每个向量数据库厂商都试图以“LLM 记忆”进行营销。但事实可能并非如此。有声音认为,向量数据库只是 LLM 的便签,可帮助用户查找一些信息。目前市面上还没有真正出现一个可重复的堆栈来将所有数据(结构化或非结构化)传输到企业需要的运营和分析存储中。

 

人工智能需要的内存形态是一种类似于人类的记忆的东西,人类的记忆不只是记住事情,还会把这些记忆总结并将它们相互联系——在使用之前进行分析。通用实时数据库是最接近这一点的东西。

 

OpenAI 知道这一点,并希望开发这个适合企业的堆栈。利用数据库的廉价和高效的计算来卸载一些昂贵且缓慢的人工智能模型计算是件令人兴奋的事,而OpenAI似乎正在朝着这个方向努力。

 

此次收购也在Hacker News引发了广泛讨论。有用户认为:“RAG 更像是一个概念,而不是一个规范。RAG不会阻止在传统数据库中添加向量索引和相似性搜索技术的潮流。这证实了传统数据库(OLAP 或 OLTP)不会消失。在所有 LLM 模型背后,仍然需要数据库中真实、权威的数据,以避免(或至少最小化)幻觉问题。无论如何,人工智能需要更多程序化的方法来获取这些数据。”

 

曾就职于甲骨文数据库公司、现任国内某开源分布式数据库公司副总裁的Pine表示:

 

“此次收购说明OpenAI这样的大模型供应商已经认识到,当大模型要在企业中落地时,要解决好两个问题:第一个是数据的实时分析问题,这就要求数据库有很高的实时性,第二个是要解决多模态向量检索问题。 也就是说,大模型要服务企业级应用时需要一个有云原生扩展能力、能提供实时性服务和向量搜索能力的混合型实时分析数据库。而这种情况下,纯粹的向量数据库在面对海量的、时效性要求高的、非结构化数据时优势就没有那么明显了。

收购大局已定,Rockset用户需要做何准备?

对于当前使用Rockset产品的用户来说,时间已经相当紧迫。根据该公司发布的FAQ内容来看,所有未签订合同的按月付费用户必须在2024年9月30日之前退出。虽然签约客户将有权与自己的Rockset客服团队具体协调合适的退出计划,但全体客户必须尽快为Rockset物色替代方案已经成为不争的事实。面对板上钉钉的收购,各位Rockset用户必须提前想好下一步规划。

Rockset用户可以采取以下措施进行应对:

评估自己的当前使用情况及要求:最好先做到心中有数,确保在评估替代方案前了解自己需要什么,这能为我们节省大量时间。搜集功能相当或者更好的替代平台:您的业务需求可能很简单、可能极复杂,具体取决于您此前使用Rockset的方式。每种平台都有其优势和短板,请整理出平台在稳定支持您业务时至少应当具备的功能和特性,避免浪费宝贵时间评估那些根本无法满足您性能及功能需要的解决方案。着手规划迁移流程,以避免对正常运营造成干扰:无论您选择了开源方案还是商业产品,对其背后支持能力或社区建设情况的评估都至关重要。请寻找一家能手把手指导您完成概念验证的合作伙伴,或者确定您打算选择的开源产品拥有全天候活跃、足以帮助您完成故障排查的技术社区,这一切将成为顺利迁移乃至未来长久应用的必要前提。

 

Rockset用户有哪些方案可选?

在制定下一步计划时,Rockset用户应当探索每一种替代方案的合理性,根据企业自身的特定用例与性能需求,不同平台提供的功能配伍也各有适用范围。下面几个重要选项可以作为参考:

面向实时分析SQL工作负载的开源选项:

 

Apache Druid": Druid是一款高性能实时分析数据库,可在大规模、高强度负载下对流式及批量数据执行亚秒级查询。ClickHouse": ClickHouse是一款速度出色的开源列式数据库管理系统,允许使用SQL查询实时生成数据分析报告。StarRocks": 非常适合运行可扩展的JOIN查询,并可在无需非规范化管线的情况下实现实时分析。凭借开箱即用的实时数据更新支持,StarRocks能够直接在其列式存储上为可变数据提供秒级更新支持。Apache Doris":Apache Doris 是一款高性能的开源实时数据仓库,支持大规模实时数据上的极速查询分析。相较于 Rockset,Apache Doris 同样支持实时数据更新、行列混存、半结构化 JSON 数据分析以及倒排索引和全文检索的能力,能满足高并发数据服务、实时报表分析、即席查询、湖仓一体以及日志存储分析等多个场景的需求。 

面向实时分析SQL工作负载的专有(商业)托管解决方案:

Imply": 具有企业级服务支持的云端托管版Apache Druid。CelerData": 云托管版StarRocks,由StarRocks项目的发起者和维护者提供支持。SelectDB":SelectDB 是基于 Apache Doris 构建的现代化数据仓库,提供了全托管的云原生实时数仓服务 SelectDB Cloud 和私有化部署模式的 SelectDB Enterprise 两种产品形态。

开源向量搜索 (VectorDB):

Weaviate": Weaviate是一款开源向量数据库,可存储对象及向量,允许将向量搜索与结构化过滤相结合,具备云原生数据库的容错性及可扩展性。Milvus": 面向下一代AI应用的云原生向量数据库及存储方案。Qdrant": 面向下一代AI的高性能、大规模向量数据库。

托管向量搜索 (VectorDB):

SingleStore": 除SQL功能之外,SingleStore还提供托管向量搜索功能,这也使其成为适合两类工作负载的综合性解决方案。Zilliz": 作为Milvus的同门师兄弟,Zilliz提供向量搜索托管服务,在继承Milvus优势的同时提供额外的支持和维护保障。Pinecone": 一套完全托管的向量搜索平台,可简化向量搜索应用程序的部署和扩展,确保高可用性及性能水平。

 

迁移工作已经迫在眉睫,各位用户需要确保自己的关键基础设施始终保持完整及稳定运行。不同平台各有优势,需要实际开展评估以确保成功迁移。

 

参考链接:

https://web.swipeinsight.app/posts/openai-acquires-rockset-to-enhance-real-time-analytics-and-retrieval-capabilities-7788"

https://starrocks.medium.com/rockset-is-acquired-by-openai-what-does-it-mean-for-its-users-3fa9561979d2"

https://techcrunch.com/2024/06/21/openai-buys-rockset-to-bolster-its-enterprise-ai/"

https://www.singlestore.com/blog/openai-acquires-rockset/"