InfoQ 推荐 ( ) • 2024-05-07 13:41

AI 时代的数据智能化需要在基础设施、算力、架构、数据训练等多个层面进行优化调整。在前段时间,InfoQ 邀请了 ArchSummit 架构师峰会"上的专家小质科技 技术 VP 胡月军、天翼云资深研发专家 刘超,和 高级架构师 / 大数据基础架构负责人 王海华老师来直播,一起聊了聊他们团队在 AI 环境下更智能的处理数据和利用数据的。以下是直播整理。

一、AI 大模型给各领域带来的影响和挑战

InfoQ:随着 AIGC 的爆火,大模型的训练对于底层的算力基础设施提出了更高的要求,刘超老师在云计算领域拥有 10 多年的工作经验,可以谈谈您在这方面的观察吗?大模型究竟对企业的底层基础设施带来了哪些挑战?

刘超:我曾长期从事类似底层云计算相关的工作。一开始,我们都知道计算的核心是围绕着计算、网络和存储展开的。然而,在大模型时代,我们注意到了一些变化。现在,我们关注的焦点似乎转移到了算法、算力和数据方面。今天另外两位老师在数据方面比较专业,我是更加侧重基础设施层面,我认为在大模型时代,我所感受到的更多压力来自于算力方面。云计算的算力与智算的算力存在着一定的差异。以前,我们主要使用通用的 CPU 算力,它主要用于普通计算任务,比如虚拟机,容器以及运行在上面的电商业务。然而,在智能计算时代,我们需要更多的并行计算、向量计算,矩阵计算,这就需要一种算力,也就是我们常说的 GPU 算力。

除了 GPU 之外,还有其他一些不太显而易见的算力需求。比如大模型除了计算量大之外,大型模型在整个集群中的相互关联计算可能会导致一些协同性问题,例如海量的数据交互,这就需要更高吞吐量和更低时延的网络,再如大数据量的训练数据的并行高速读取,这与我们以前使用的对象存储有所不同。这些方面都需要额外的算力支持,有时我们称之为 DPU。因此,这些因素加在一起,带来了与以前那种大促或者大数据场景下分布式计算不同的挑战。这些是我感受到的这个挑战的一些方面。

InfoQ:进入 AI 时代,数据作为新型生产要素成为企业竞争力的核心,企业越来越重视私域数据的全链路智能管理,这给数据库技术也提出了新的要求,具体表现在以下几个方面:

胡月军:首先,我们先就目前企业数据系统的现状和问题进行讨论,再展望未来。目前我们了解到,许多企业的数据分布在不同的系统中,根据不同的应用场景而定。在业务规模较小的情况下,一些简单的查询和事务型数据存储在 MySQL 和 PostgreSQL 中。随着业务的扩展,一些企业会将数据存储到 MongoDB 中以获得更好的水平扩展性,MongoDB 以其文档模型支持半结构化数据存储和读取,但也存在一些问题,例如难以表达多对多的关系和更新时的事务问题。

另一类场景是关键字搜索,随着业务数据量的增加,通常会使用 Elasticsearch 作为查询引擎,但这种方案可能存在一定的延迟和更新不友好的问题。

还有一类场景是汇总分析,通常可以使用 ClickHouse 或 Snowflake 等工具实现,但在实时性和处理更新方面可能存在一些效率不足。

随着 AI、AIGC 等技术的发展,以及大模型对自然语言理解能力的增强,语义搜索逐渐成为许多企业必备的功能。然而,由于大模型主要基于公域数据训练,私域数据往往无法充分利用。解决这个问题的方法之一是通过微调大模型,将私域数据融入其中,但这种方法成本较高,因为需要重新训练模型。

另一种方法是将大模型与内部的私有数据知识库结合起来,通过向量化等技术检索内部知识库,以提供语义搜索的答案。这种方法通常称为 RAG 方法。然而,这种方法也面临着数据更新和结构化数据整合等方面的挑战。

综上所述,企业为了解决各种不同场景下的问题,通常会采用不同的技术系统,这会增加开发成本和维护成本。此外,由于数据存储在多个系统中,存储成本较高,而数据流转可能会带来一致性和实时性方面的问题。

此外,随着 AI 和语义搜索的引入,以及向量化数据的使用,如何与现有的结构化数据进行协同,以提高语义搜索的准确性也是一个挑战。回归到用户对数据的本质需求,主要包括数据的一致性、正确性、实时性以及高性能的存储,查询和挖掘能力。要解决以上问题,我们需要不妥协地面对正确性、性能和实时性等物理极限的需求。

InfoQ:从数据分析领域的视角来看,大模型技术将如何改变企业的数据架构,以及用户的日常数据分析体验?

王海华:在我的理解中,大模型对数据架构的影响主要表现在两个方面。首先,随着大模型的引入,数据架构需要适应新的应用场景,例如模型的训练、调优和推理,这会对数据的质量组织形式提出更高要求。过去,数据仓库可能更多地服务于结构化数据的报表和算法应用,而现在需要考虑非结构化数据的语料,例如音频、图片和视频等。因此,数据架构需要逐渐演进,从以前的数据仓库向更灵活的架构,如数据中台和布仓一体,转变。

其次,大模型的使用可能导致数据元数据的不统一性。例如,在实时和离线数据源之间可能存在不一致性,而新的算法场景又会引入新的元数据需求。因此,统一元数据对数据架构的重要性不言而喻,它能够为不同场景提供统一的数据视图,便于大模型的推理和训练使用。

另外,王海华老师提到了数据分析领域。大模型的引入可能会提升数据分析的效率和智能化水平。传统的数据分析工具往往需要复杂的操作,例如编写 SQL 查询和定制开发,而大模型具有强大的语义理解和逻辑推理能力,可以降低数据分析的门槛,使业务用户能够更轻松地进行数据分析。

此外,大模型的智能分析能力还可以通过逻辑推理和智能代理技术实现自动化的数据分析。用户可以通过简单的提问,获取复杂数据分析结果,从而提高工作效率。

总的来说,大模型技术的引入将带来数据架构的变革和数据分析效率的提升,为企业数据应用带来更多的便利和创新。

二、企业如何应对 AI 大模型盛行带来的新变化

InfoQ:在 AI 大模型的背景下,企业构建智算平台涉及哪些核心的技术要点?在实践和落地过程中,需要特别注意哪些问题 / 可能会踩到哪些“坑”?

刘超:首先,智算平台与通用计算存在一些不同之处,主要体现在管理、计算、存储和网络方面的改变。管理方面,调度器和工作节点之间的互通操作不会有太大变化。但在计算方面,由于大模型对 GPU 的使用效率要求较高,通常会采用裸金属技术,直接访问 GPU 卡,而非虚拟化。裸金属服务器之间的虚拟网络需要通过 DPU 完成。GPU 之间的数据互通需要更加低时延的网络,多会使用 RDMA 网络,InfiniBand 来实现。在存储方面,针对大模型计算的高并行下载需求,也需要提升网络的性能,也会采用高性能网络,可以使用 RoCE 网络,也可以使用 InfiniBand 网络。

在软件层面,需要配备 GPU 算力调度技术,满足大规模计算任务的运行,需要配备并行文件系统,能够满足大模型训练的高并行下载需求。因此,在构建智算平台时,需要对整个计算、网络和存储架构进行全面的重构,以满足 AI 计算的需求。

此外,构建智算平台也会带来一些挑战。企业可能需要接触一些新的技术栈,采购新的硬件设备,这些通常相对昂贵。一方面,企业需要进行大量的新硬件的适配工作,例如新的组网,驱动,插件,内核模块等,另一方面企业需要进一步优化各个方面,包括调度、GPU 复用、网络协议,存储协议等,以最大程度发挥这些昂贵硬件的作用。

总的来说,构建智算平台是一个复杂的过程,硬件复杂,软件平台复杂,部署复杂,优化复杂,使用好能发挥出算力也复杂,对任何企业的技术和资源都是很大的挑战。

InfoQ:天翼云在自身实践或如何赋能企业完成转型这方面有什么经验和实践?

刘超:在过去一段时间里,我们都注意到大模型层出不穷,呈现出爆发性的趋势。作为云厂商,我们主要服务 ToB 客户,在对客户落地大模型方面积累了一些实践经验。

当前大部分企业实践大模型有一个特点,即从零开始训练一个完整的大模型成本过高,因此很多企业更倾向于在现有模型的基础上进行调优。这种模式在实践中比较普遍。

在将模型落地时,企业通常需要进行全面评估,而不是像以前对待其他新兴技术例如容器微服务一样,进行简单地尝试,因为成本比较高。这种评估涉及到多个方面。

首先是对算力需求的评估,包括计算、网络和存储几个方面。计算方面的评估需要考虑现有模型的参数规模、数据量的大小,采用的调优算法等因素,以确定所需的 GPU 卡的数量和训练时间成本。数据存储的评估,需要考虑数据量和文件系统的选择,以保证训练数据的读取速度。网络方面的评估需要确定是否需要重新建设高性能低延时的 RDMA 网络以支持大模型的通信。

其次企业在建成大模型平台之前还需要对数据进行评估,包括数据量和数据的质量。数据质量的评估尤为重要,因为低质量的数据可能会导致浪费时间和金钱。

最后还需要评估平台建设的复杂度需求,是否需要构建一个 GPU 卡调度平台,其上是否需要构建一个深度学习平台,再往上是否要构建一个模型训练平台。

在落地的过程中,我们通常会和客户协商从这几个方面出发,让客户更有效地利用资源,建立一个高效的计算平台。

InfoQ:可以结合一下实际场景分享一下我们是在利用大模型进行智能数据分析落地所存在的挑战的吗?我们在智能数据分析技术建设实践方面有哪些新的思考和尝试?

王海华:关于大模型引入后,如何应对数据架构和数据分析方面的需求和挑战。首先,我们应该从数据分析方面入手。在大模型时代,数据架构方面出现了一些问题,包括私域数据和统一数据带来的挑战。我先从数据分析方面谈起,因为我们在智能数据分析方向做了一些实践工作,正如 28 米分享的主题所述。回到的话题,我们是一个类似货运版滴滴的业务场景,目前已经发展到中等甚至以上级别的互联网公司规模。

公司非常重视数据,我们已经全面收集和存储了大量数据,并通过数据应用形式为经营决策、精准营销、风控和地图 LBS 等场景提供支持。然而,随着大模型的引入,我们也意识到智能数据分析应该提供更深层次的洞察力,实现智能化。目前,我们的智能化水平还有待提高,数据分析仅仅是提供了数据,但在某些场景和 AI 方面的智能化还不够深入。

有了大模型后,我们发现可以将其与数据分析相结合,例如我们运营团队每天进行大量的业务策略调整和效果分析,包括业务数据的归因,以及订单和用户增长等方面的监测。对他们来说,这些场景非常重要。因此,针对这些关键场景,我们希望提供一个低门槛的入口,让他们可以轻松获取相关信息和洞察力,而不需要依赖复杂的数据产品或深度分析报表。

基于这个需求,我们启动了一个名为“速查”的项目,旨在建立一个智能数据分析的统一入口。我们希望逐步简化现有的数据产品,将其整合为一个统一的智能入口。同时,我们希望通过这个入口提供简洁、易用的数据查询和洞察力,以及整合各种数据分析产品的能力,实现用户语义化的输入和简洁的输出。

然而,在简化过程中,我们面临着数据质量和数据指标的挑战。我们希望将分散的数据逐步整合为一个统一的指标体系,并提供高质量的数据和元数据。通过这种方式,数据查询和洞察力的获取将变得更加轻松。此外,我们也意识到大模型在推理能力方面存在局限性和幻觉,而在数据场景中,对数据正确性的要求非常高。因此,我们需要在数据层面上做出一些思考和尝试,以确保数据的质量和指标的准确性。

另外,我们需要清楚地认识到,大模型的能力可能是临时的,并随着时间的推移而发生变化。因此,我们需要在解决问题和应对挑战时做出明智的判断,并寻找正确和高效的解决方案。我相信这些思考和尝试不仅适用于数据分析场景的落地,也适用于其他所有领域的应用落地。

InfoQ:在具体实践过程中,如何提升智能化程度同时确保数据分析平台的准确性、稳定性?

王海华:实际上,他在询问所使用的模型类型,并能否提供几个场景的例子。当前,大模型的应用状态非常多样化,外部供应商如 OpenAI、Google,国内的文心、通义千问等,提供了多种选择。对于模型的选择,我们应该根据业务探索阶段的需要,尽可能选择行业最顶尖的模型,而不是平均水平的模型。在探索阶段,确保数据安全和合规的前提下,选用性能最强的模型能够最大化业务效果。而在上线后的服务期,我们需要考虑更多因素,如数据安全和成本。模型越大,推理成本越高,因此需要在稳定性和性能之间寻找平衡。

在我们公司,有两类模型。一类是简单场景下的商用模型,例如阿里的通义,在许多场景下表现良好。另一类是私有化部署的模型,适用于数据敏感的场景,例如司机录音总结和一些涉及个人隐私数据的应用。对于需要领域微调的场景,我们会优先选择私有化部署并进行微调的模型,因为商用模型可能无法满足这些定制化需求。

最后,在上线服务时,除了考虑业务效果,安全性也是至关重要的。我们需要确保大模型不会产生违规内容,如涉黄、涉暴、涉恐等,这需要审核和风控审核的能力。对于内容风控方面,传统方案往往效果有限,因此考虑使用大模型来提升安全性和审核效率。综合考虑成本、安全性、效果以及定制微调等维度,选择适合自己场景的模型是一个综合性的决策。这是我的回答。

InfoQ:在数据库领域,融合大数据以及 AI 能力的 Data Warebase 核心技术成为一种趋势,在实现传统 TP/AP/Text Search 能力的同时,还可以通过向量计算和与大模型的结合来更精准的实现企业私域数据智能化和 Universal Search,从而帮助企业更好地利用数据资产,实现业务创新。

胡月军:海华老师介绍了在提升数据分析和智能体验方面的工作。他们尝试提高精准度,并在数据治理方面做了工作,以解决大模型和数据结合时的问题。刘超老师和其他老师在大模型的开发和应用方面有丰富经验,为数字平台的支持和应用提供了宝贵经验。在企业使用数据时,通常涉及多个系统,因此需要一种统一的数据产品,能够融合数据库、大数据技术和 AI 能力,以解决不同场景带来的问题。我们公司在 Data Warebase 方面做了大量工作,能够实现传统的 TP/AP 搜索和语义搜索能力,同时结合大模型和向量计算,提供企业语义搜索的能力。

我们的 Data Warebase 具有以下特点:为了实现 TP/AP 搜索和语义搜索的能力,我们在索引方面做了大量工作,包括行列, bitmap 索引和向量化索引的支持。此外,在向量化执行、分布式事务和优化方面,我们也做了大量工作,以保证系统的正确性和性能。另外,我们采用了存算分离的架构,能够更好地分离计算和存储,实现极致的弹性体验,同时节约成本。

为了解决多系统问题,我们需要系统具有较强的自适应能力,包括索引选择,查询并发度确定、事务提交一阶段、两阶段等方面。此外,我们对 SQL 和 PG 生态进行了兼容,方便用户使用已有工具,而不需要修改。总的来说,我们的 Data Warebase 致力于更好地应对 AI 带来的挑战,通过整合和训练数据,提升效率。我们相信,未来的 AI 会更好地理解索引,并与结构化数据一起使用,从而提升精准度。我们认为,Data Warebase 将成为解决用户数据存储和计算需求的统一系统,为企业私域数据智能化和各种计算场景的结合提供满足能力。

InfoQ:天翼息壤和慧聚,云骁的适用场景有什么区别是什么?

刘超:首先,云骁的侧重点在于智算平台,主要用于 GPU 资源的调度和底层 Infra 的管理,基于的就如上述的 GPU 裸金属,DPU,并行文件系统、RDMA 网络等新型算力技术。慧聚则侧重智算的服务层,提供任务调度处理,可以帮助用户进行模型训练或微调,可以大幅降低大模型训练、微调、部署、推理的门槛。

息壤类似于一个算力云市场,符合国家政策中“东数西算”的战略,各地的算力注册到线上平台,用户可以根据需求选择合适的集群执行计算任务。息壤的处理方式与传统的虚拟机及容器算力不同,它实现了全方位的多地多集群调度,相较于单数据中心单集群的平台而言,息壤的优势更明显。

三、ArchSummit 会议上的议题亮点

InfoQ:王海华老师在数据架构领域拥有丰富经验,曾在滴滴、饿了么和拼多多等公司都有过相关经历。在这些公司,您是如何应对不同规模和需求的数据平台架构的?特别是在数据平台架构和保证数据复杂度、大模型性能和准确性方面的应对。最后,您能否对此进行一些总结或概述呢?

王海华:理解您的问题是关于不同规模下数据架构的不同之处,以及如何应对这些挑战。确实,我有几家互联网公司的经验,它们可能处于不同的阶段,有的在快速增长期,有的已进入成熟期,甚至可能同时处于不同阶段的状态。这会对数据架构提出不同的要求。

我想分享一些我个人的见解。比如在快速增长期,比如电商和外卖领域,每月的业务量都在快速增长,带来了算力和存储的飞速增长。这首先对数据架构提出了两点挑战和需求:一是需要极强的扩展性,因为业务容量可能会在短时间内翻倍甚至几倍增长。如果扩展性不足,可能会遇到瓶颈,无法支持快速增长的业务,可能引发稳定性和性能问题。幸运的是,在大数据技术的生态系统中,许多组件在扩展性和容错性方面做得相当不错。我们可能只需要做一些补充就能满足需求,这是一个幸福的地方。当然,如果我们使用自研技术,就需要考虑技术深度,确保扩展性和容错性。

第二个挑战是业务的快速增长可能会带来许多新需求和项目,需要数据平台和架构快速支持。有时候,我们可能会发现在业务能接受的情况下,做到尽善尽美可能会牺牲一些,因为资源是有限的。我们引入了一些配置化和技术补充来应对这些需求。比如在 Doris 的早期阶段,我们就引入了它来支持实时写入和高效的数据查询。尽管 Doris 当时并不十分成熟,有时会出现问题,但我们通过澄清和解释,与业务保持了良好的沟通。

【活动推荐】

将在 6 月 14-15 日举办的深圳 ArchSummit 架构师峰会"上,胡月军和刘超老师出品的专题,将邀请 vivo、天翼云、网易、火山引擎、eBay、货拉拉、Uber 的专家来分享各自在大模型算力、AI & Data 结合方面的实践话题,感兴趣的可以点击查看会议详细的议题内容。目前会议门票售价 9 折期间,购票人数越多优惠力度越大,欢迎来现场和演讲嘉宾、同行交流。