优享资讯 | 3个月砸1000万美元肝出“最强”大模型？黑马Databricks：我们完虐Grok、Llama，还更开放

InfoQ 推荐 ( ) • 2024-03-28 15:48

3个月砸1000万美元肝出“最强”大模型？黑马Databricks：我们完虐Grok、Llama，还更开放

世界最强开源大模型又双叒叕易主了！

Databricks推出开源大模型DBRX

3月27日，美国AI初创公司Databricks宣布，该公司Mosaic Research团队开发的通用大模型 DBRX将开源。Databricks客户可以通过API使用DBRX，从零开始预训练自己的DBRX同类模型，或者使用其构建该模型的同款工具和技术在选定的检查点之上继续训练。

据悉，DBRX 的设计灵感来源于 OpenAI 的 ChatGPT。Databricks 表示，它花费了大约 1000 万美元和三个月的时间来训练 DBRX，并声称其“在标准基准上优于所有现有的开源模型”。Databricks 的首席神经网络架构师兼 DBRX 项目负责人 Jonathan Frankle在确认了测试结果后向团队宣布：“我们已经超越了所有现有模型”。

量化测试结果显示，DBRX性能已经超越GPT-3.5，且完全能够与Gemini 1.0 Pro相比肩。其推理速度比达到LlaMa2-70B的2倍；而就总参数量和活动参数量而言，DBRX的大小约为Grok-1的40%。在被托管于Mosaic AI Model Serving上时，DBRX能够以高达150 tokens/秒/用户的速度生成文本。同时，DBRX也是一套极其强大的编码模型，在编程方面甚至超越了CodeLlaMa-70B等专业模型。

在最终模型质量相同的情况下，训练混合专家的FLOP效率约为训练密集模型的2倍。从端到端角度出发，DBRX整体配方（包括预训练数据、模型架构和优化策略）完全能够与上一代MPT模型提供同等输出质量，但计算量却减少至约四分之一。

DBRX是如何构建出来的？

DBRX是一套基于Transformer的纯解码器大语言模型（LLM），使用下一token预测方式进行训练。它使用细粒度的混合专家（MoE）架构，共有132B参数，其中36B参数在任何输入上均处于活动状态。DBRX的预训练使用到12 T大小的文本与代码数据tokens。

与Mixtral和Grok-1等其他开放混合专家模型相比，DBRX具有细粒度特性，意味着它使用到数量更多的小型专家模型。DBRX共含16个专家模型，在推理中选取输出质量最高的4个；而Mixtral和Grok-1则包含8个专家模型，每次推理时选择其中2个。这意味着DBRX的潜在专家组合相当于同类开放模型的65倍，这也在实践中切实提高了模型质量。DBRX使用旋转位置编码（RoPE）、门控线性单元（GLU）和分组查询注意（GQA）机制，还用到了tiktoken repo中提供的GPT-4 token生成器。

DBRX在精心设计的12T token数据与32k最大上下文长度条件下进行了预训练。Databricks估计这样的配置数据在训练质量上至少达到此前MPT系列模型预训练数据的2倍。这套新数据集使用全套Databricks工具开发而成，包括用于数据处理的Apache Spark和Databricks notebooks，用于数据管理与治理的Unity Catalog，以及用于实验跟踪的MLflow。Databricks还使用课程学习进行预训练，在训练期间改变数据组合，并发现这样能够显著提高模型质量。

据介绍，DBRX在通过3.2 Tbps InfiniBand实现互连的3072张英伟达H100上训练而成。构建DBRX的主要步骤包括：预训练、后训练、评估、红队测试和精炼，全程历时三个月。除此之外，Databricks还持续开展长达几个月的数学、数据集研究与扩展实验。

为了构建DBRX，Databricks打造出一款未来客户也能用到的工具，使用Unity Catalog对训练数据进行管理与治理，同时采取收购而来的Lilac AI资产探索这些数据，并使用Apache Spark和Databricks notebooks清洗并处理这些数据。

Databricks使用开源训练库的优化版本来训练DBRX，包括MegaBlocks、LLM Foundry、Composer和Streaming。使用Mosaic AI训练服务在数千个GPU上管理大规模模型训练与微调任务。使用MLflow记录结果，并通过Mosaic AI模型服务与推理表收集到大量来自测试人员的质量和安全改进反馈。使用Databricks Playground手动测试了这套模型，并发现其打造的工具在各种用途上均有领先表现，完全能够带来和谐统一的产品体验。

目前，DBRX已经被整合至Databricks的生成式AI支持产品当中，包括SQL等应用，且早期表现已经超过了GPT-3.5 Turbo，足以向GPT-4 Trubo发起冲击。DBRX在RAG任务上同样力压GPT-3.5 Turbo以及其他各种开放模型。

训练效率与推理效率

模型质量无法孤立存在，必然要与模型训练和使用效率联系起来。Databricks发现，训练混合专家模型能够显著提高训练过程的计算效率（详见下图。例如，在训练名为DBRX MoE-B（总参数23.5B，活动参数6.6B）这个较小版本时，在Databricks LLM Gauntlet上获得45.5%分数所需的FLOP次数仅为LlaMA2-13B训练工作量的1/1.7，且后者得分仅为43.8%。DBRX MoE-B的活动参数也仅为LlaMA2-13B的一半。

从整体上看，Databricks的端到端大模型预训练管线的计算效率在过去十个月间提高了近4倍。2023年5月5日，Databricks正式发布了MPT-7B，这是一套在1T tokens上训练得到的7B参数模型，在Databricks LLM Gauntlet测试中得分为30.9%。DBRX家族的另一位成员名为DBRX MoE-A（总参数7.7B，活动参数2.2B），其Databricks LLM Gauntlet测试得分为30.5%，但训练FLOP量减少至1/3.7。这样的效率提升源自一系列改进举措，包括使用混合专家架构、对其他网络架构的调整、更好的优化策略、更好的令牌化方法，以及更高的预训练数据质量等等。

单独来看，预训练数据的优化对模型质量产生了重大影响。Databricks使用DBRX预训练数据在1T tokens上训练得出一套7B模型（名为DBRX Dense-A）。其在Databricks LLM Gauntlet测试中的得分为39.0%，远高于MPT-7B的30.9%。Databricks估计，新的预训练数据在质量方面至少相当于MPT-7B训练数据的2倍。换句话说，要达到相同的模型质量，现在只需要使用一半tokens。Databricks还在500B tokens上训练了DBRX Dense-A来验证这一猜测，发现它在Databricks LLM Gauntlet上的表现同样优于MPT-7B，得分为32.1%。除了更高的数据质量外，提升训练效率的另一大重要因素很可能是GPT-4令牌化器。其中包含大量词汇，而且被普遍认为具有极高的令牌化效率。

推理效率和模型质量之间往往相互冲突：较大的模型往往拥有更高的输出质量，但较小的模型往往推理效率更高。使用混合专家架构则能够在模型质量与推理效率之间实现超越大部分密集模型的权衡效果。例如，DBRX的质量比LlaMA2-70B更高，而且由于活动参数量仅为LlaMA2-70B的一半左右，所以DBRX推理吞吐量最高可达其2倍（参见下图）。Mixtral则是混合专家模型实现帕累托式改进的另一明证：它的体量比DBRX更小，质量也相应较低，但推理吞吐量则更高。Databricks基础模型API的用户预计可在经过优化的8位精度模型服务平台上，获得每秒最高150 toknes的DBRX推理性能。

与其他领先大模型的基准测试比较

在与其他领先的开放模型的基准测试比较结果中，DBRX Instruct在综合、编程和数学基准以及MMLU等方面均表现出色，在标准基准测试中甚至成功超越了所有话语或指令微调模型。

Databricks根据两项综合基准评估了DBRX Instruct与其他同类开放模型的差异，具体包括Hugging Face Open LLM Leaderboard（即ARC-Challenge、HellaSwag、MMLU、TruthfulQA、WinoGrande 和 GSM8k 的平均值）以及Databricks Model Gauntlet（涵盖6大领域超30项任务的套件，具体包括世界知识、常识推理、语言理解、阅读理解、符号问题解决和编程）。

在参与评估的模型中，DBRX Instruct在两项综合基准上得分最高：Hugging Face Open LLM Leaderboard（得分74.5%，高于第二位Mixtral Instruct的72.7%）和Databricks Gauntlet（66.8%，高于第二位Mixtral Instruct的60.7%）。

DBRX Instruct在编程和数学方面尤其擅长。其得分高于Databricks在HumanEval上评估的其他开放模型（得分为70.1%，高于Grok-1的63.2%，Mixtral Instruct的54.8%，以及LlaMa2-70B性能最高变体的32.2%），GSM8k测试同理（得分为66.9%，高于Grok-1的62.9%，Mixtral Instruct的61.1%，以及LlaMA2-70B性能最高变体的54.1%）。DBRX性能全面优于在基准测试中表现第二好的Grok-1，且后者的参数量达到DBRX的2.4倍。在HumanEval测试中，DBRX Instruct甚至超越了专为编程而构建的模型CodeLlaMA-70B Instruct，而前者只是针对通用用途而设计（得分为70.1%，高于Meta在博文中公布的67.8% HumanEval得分）。

此外，DBRX Instruct的得分高于Databricks在MMLU测试上测量的所有其他模型，达到73.7%。

在与其他领先的封闭模型的基准测试比较结果中，DBRX Instruct几乎全部超越GPT-3.5，且最差得分也与GPT-3.5相当。DBRX Instruct在通过MMLU衡量的常识知识（73.7%对70.0%）以及由HellaSwag（89.0%对85.5%）和WinoGrande（81.8%对81.6%）衡量的常识推理方面，均优于GPT-3.5。而从HumanEval（70.1%对48.1%）和GSM8k（72.8%对47.1%）的得分来看，DBRX Instruct尤其擅长编程和数据推导。

DBRX Instruct的成绩几乎与Gemini 1.0 Pro和Mistral Medium相当。DBRX Instruct在Inflection Corrected MTBench、MMLU、HellaSwag 和 HumanEval 上的得分高于 Gemini 1.0 Pro，而 Gemini 1.0 Pro 在 GSM8k 上的得分更强。DBRX Instruct与Mistral Medium在HellaSwag测试中得分相似，后者在Winogrande 和 MMLU 上更强，而 DBRX Instruct 在 HumanEval、GSM8k 和 Inflection Corrected MTBench 上更强。

GPT-5、GPT-6们即将向最强大模型发出挑战

当前，大模型训练已经进入到了白热化阶段，最强开源大模型称号几经易主，暂时落在了DBRX头上。开源大模型在卷，封闭大模型也在卷。近日有消息显示，OpenAI准备在未来几个月内发布更加强大的AI模型GPT-5。与此同时，近日一条关于GPT-6的消息被传的沸沸扬扬。

GPT-5方面，据《商业内幕》从两位知情人士处得到的消息，GPT-5计划在今年夏季推出。从报道来看，发布之前已经有部分企业测试过该工具的演示版本，初步掌握了其升级功能。在之前的GPT-4上，AI聊天机器人已经能够提供与人类相似的响应能力，甚至可以识别并生成图像和语音。据报道，其继任者GPT-5将带来更强的个性化表现、更少的错误并处理更多内容类型，最终将可支持视频。

今年二月，Altman在迪拜举行的世界政府峰会上谈到了GPT-5。他表示ChatGPT的这个最新版本将拥有超越前代的智能水平。Altman解释称，“其中的意义将超越话语描述，因为这些模型之所以如此神奇，就在于它们有着强大的通用能力。所以只要它们能更聪明一点，那在所有用例上也都将更进一步。”Altman在接受《金融时报》采访时强调，GPT-5需要更多数据进行训练，这也暗示其智能水平的提升。他表示，项目计划使用互联网上的公开数据集以及来自各组织的大规模专有数据集进行训练。后者将包含各种格式的长篇文章或对话记录。

最新报道指出，OpenAI公司已经开始训练GPT-5，积极为今年年中的AI模型发布进行准备。据《商业内幕》报道，一旦训练完成，该系统还须经历多个阶段的安全测试。作为过程中的一部分，该机器人还须经历“红队测试”，即同时由内部和外部人员通过测试就其优点和短板给出反馈。

早在去年秋季至少两个不同场合上，OpenAI掌门人Sam Altman就曾，亲自证明公司正在开发GPT-5。据两位与会人士透露，第一次是在去年9月他曾供职的风险投资公司Y Combinator的员工聚会演讲当中。当时Altman明确表示，GPT-5及其继任者GPT-6已经“只是时间问题”，而且都比前代版本更加强大。

去年11月，Altman又公开承认了GPT-5的存在。他在接受英国《金融时报》采访时称OpenAI正在开发GPT-5，但没有透露具体发布日期。

最近，一篇报道称这位OpenAI掌门人又提出了一项大胆的计划，决定采购训练大规模AI模型所需要的海量GPU设备。据《华尔街日报》报道，为了克服阻碍技术创新的GPU供应短缺问题，Altman希望全球投资者、政府和电网机构能够帮助其筹集最高7万亿美元资金，借此扩大芯片制造产能。

与此同时，有关GPT-6的消息也在近日被广为报道。

3月26日，AI初创公司OpenPipe联合创始人、CEO Kyle Corbitt在X上透露，自己最近与一位负责GPT-6训练集群项目的微软工程师谈过，后者抱怨称，在跨区域GPU之间部署infiniband级别链接，实在是一件痛苦的事。 Corbitt问到为何不将训练集群集中在同一区域，这位微软工程师回答，“我们已经尝试过那么做了，但是如果在一个州放置超过10万片H100 GPU，电网就会崩溃。”

此外，一张OpenAI内部时间线的图片也在近日疯传。图中显示，OpenAI早在2022年8月-10月就开始了GPT-5的训练，在去年9月开始了GPT-6的测试。虽然OpenAI没有给出明确的发布日期，但结合各类爆料来看，GPT-5、GPT-6已经在路上了，即将向最强大模型发起冲击。

参考链接：

https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm"

https://www.standard.co.uk/news/tech/chatgpt-5-release-date-details-openai-chatbot-b1130369.html"