优享资讯 | Databricks开源通用大型语言模型DBRX

新聞 | iThome ( ) • 2024-03-28 17:37

图片来源:

GitHub

资料暨AI业者Databricks周三（3/27）开源了通用大型语言模型（LLM）DBRX，宣称DBRX在各式标准的基准测试上超越了坊间所有的开源模型，也在大多数的基准测试上击败GPT 3.5。

DBRX是个基于Transformer解码器的大型语言模型，采用细粒度的混合专家（Mixture of Experts，MoE）架构，具备1,320亿个参数，当中有360亿个经常处于活动状态，于12T Token的文字与程式码资料上进行预训练。

相较于市场上既有的LLaMA2-70B、Mixtral和Grok-1等开源模型，DBRX在语言理解（MMLU）、程式设计（HumanEval）及数学逻辑（GSM8K）等基准测试上的表现明显胜出。此外，DBRX在上述3项基准测试中亦凌驾OpenAI的GPT 3.5。

若比较更高阶的GPT 4、Claude 3及Gemini 1.0 Pro，那么DBRX在语言理解上赢过Gemini 1.0 Pro，在程式设计上赢过GPT 4与Gemini 1.0 Pro。

Databricks亦强调，DBRX是个采用MegaBlocks研究与开源专案的混合专家（MoE）模型，得以实现快速的Token处理能力，也相信未来将有更多的开源模型采用MoE架构，因为MoE可用来训练更大的模型，并以更快的吞吐量来提供服务。

Databricks生成式AI副总裁Naveen Rao 向《TechCrunch》透露，该公司花了两个月及1,000万美元的成本来训练DBRX，而经过训练的DBRX可提供各种主题，现已针对英文进行优化，但也支援法文、西班牙文与德文。

不过，《TechCrunch》也指出，一般人并不容易使用DBRX，因为要执行DBRX至少必须配备4个Nvidia H100 GPU或其它GPU，且光一个H100的成本就高达数万美元，对许多开发者或个人企业家而言是遥不可及的。