新聞 | iThome ( ) • 2024-03-29 19:54

MLCommons发布了MLPerf Inference v4基准测试套件的最新结果,其中资料中心分类新增了文生图模型Stable Diffusion XL和开源语言模型Llama 2 70B,在这两个新模型的效能表现上,Nvidia系统皆位居第一。而边缘系统新增的Stable Diffusion XL模型测试,则由Wiwynn提交的系统在效能上获得领先。

MLPerf Inference基准测试套件涵盖资料中心和边缘系统,目的是要衡量硬体系统,在各种场景中执行人工智慧与机器学习模型的速度。MLCommons由专门的工作小组,评估当前阶段生成式人工智慧的发展,决定纳入基准测试的模型。

在考量模型授权、易用性、部署和决策的准确性,工作小组决定在Inference 4.0套件中加入两个新模型,一个是具有700亿参数的Llama 2 70B来代表大型模型,另一个则选择用来代表文生图生成式人工智慧模型的Stable Diffusion XL。

Llama 2 70B相比MLPerf Inference v3.1所纳入的GPT-J模型大一个量级,结果也更加准确,工作小组解释,之所以需要加入一个像是Llama 2 70B这样的大型语言模型,是因为与较小的语言模型相比起来,执行Llama 2 70B需要不一样的等级的硬体,而这便成为高阶系统一个良好的基准。

而之所以工作小组还选择Stable Diffusion XL,则是因为其拥有26亿参数,透过生成大量图像,基准测试能够计算延迟和吞吐量等指标,了解系统整体效能。目前MLPerf Inference v4.0中已经有三分之一的基准测试,是针对生成式人工智慧工作负载,包括了小型、大型语言模型与文生图生成器,以确保MLPerf Inference基准测试可以跟上最先进的技术。

共有23个组织提交MLPerf Inference 4.0测试结果,包括ASUSTeK、Azure、Google、Intel、Juniper Networks、Qualcomm、Red Hat、Supermicro与Wiwynn等公司,MLCommons共收到8,500个效能结果以及900个功耗测试结果。

MLPerf Inference 4.0资料中心类别中,Nvidia的系统在新加入的两个模型测试Llama 2 70B与Stable Diffusion XL,皆拿到了效能表现第一,而在边缘环境的类别,则是由Wiwynn所提交,使用两个Nvidia L40S GPU所组成的系统,获得Stable Diffusion XL模型效能表现第一。