优享资讯 | Nvidia在Llama 2 70B与Stable Diffusion XL模型基准测试皆拔得头筹

新聞 | iThome ( ) • 2024-03-29 19:54

Nvidia在Llama 2 70B与Stable Diffusion XL模型基准测试皆拔得头筹

MLCommons发布了MLPerf Inference v4基准测试套件的最新结果，其中资料中心分类新增了文生图模型Stable Diffusion XL和开源语言模型Llama 2 70B，在这两个新模型的效能表现上，Nvidia系统皆位居第一。而边缘系统新增的Stable Diffusion XL模型测试，则由Wiwynn提交的系统在效能上获得领先。

MLPerf Inference基准测试套件涵盖资料中心和边缘系统，目的是要衡量硬体系统，在各种场景中执行人工智慧与机器学习模型的速度。MLCommons由专门的工作小组，评估当前阶段生成式人工智慧的发展，决定纳入基准测试的模型。

在考量模型授权、易用性、部署和决策的准确性，工作小组决定在Inference 4.0套件中加入两个新模型，一个是具有700亿参数的Llama 2 70B来代表大型模型，另一个则选择用来代表文生图生成式人工智慧模型的Stable Diffusion XL。

Llama 2 70B相比MLPerf Inference v3.1所纳入的GPT-J模型大一个量级，结果也更加准确，工作小组解释，之所以需要加入一个像是Llama 2 70B这样的大型语言模型，是因为与较小的语言模型相比起来，执行Llama 2 70B需要不一样的等级的硬体，而这便成为高阶系统一个良好的基准。

而之所以工作小组还选择Stable Diffusion XL，则是因为其拥有26亿参数，透过生成大量图像，基准测试能够计算延迟和吞吐量等指标，了解系统整体效能。目前MLPerf Inference v4.0中已经有三分之一的基准测试，是针对生成式人工智慧工作负载，包括了小型、大型语言模型与文生图生成器，以确保MLPerf Inference基准测试可以跟上最先进的技术。

共有23个组织提交MLPerf Inference 4.0测试结果，包括ASUSTeK、Azure、Google、Intel、Juniper Networks、Qualcomm、Red Hat、Supermicro与Wiwynn等公司，MLCommons共收到8,500个效能结果以及900个功耗测试结果。

MLPerf Inference 4.0资料中心类别中，Nvidia的系统在新加入的两个模型测试Llama 2 70B与Stable Diffusion XL，皆拿到了效能表现第一，而在边缘环境的类别，则是由Wiwynn所提交，使用两个Nvidia L40S GPU所组成的系统，获得Stable Diffusion XL模型效能表现第一。