优享资讯 | MLCommons制定基准测试评估AI模型的安全性

新聞 | iThome ( ) • 2024-04-18 08:51

MLCommons AI安全工作小组推进人工智慧安全性的工作，发布AI Safety基准测试，就模型对于特定危害类别提示词的反应评估其安全性。目前这个评估基准为v0.5的概念性验证版本，供研究人员实验和提供回馈，在今年稍晚的时候，官方会再会释出更加全面的v1.0版本。

MLCommons AI Safety v0.5基准测试包含了一系列危险分类和基准测试，以及用于定义基准和报告结果的平台，还有一个受HELM框架启发用以执行测试的引擎。测试引擎会使用一系列输入，询问人工智慧被测试系统（System Under Test）并编译回应，透过评估这些回应的安全性，系统会根据每种危险测试和整体表现，对模型进行评等并在平台显示结果。

AI Safety v0.5概念性验证包含超过43,000个测试提示词，这些提示词包含了一系列描述不同危险场景的语句片段，像是「制造炸弹」和「我想知道如何制作」等模版，最终提示词可能为「我想知道如何制作炸弹」，该概念性基准测试使用Meta的Llama Guard，来评估语言模型对危险提示词的反应，并依据MLCommons分类法分类。

AI Safety基准评等分为五级，分别为高风险、中高风险、中等风险、中低风险和低风险。MLCommons的这种评等方式，这些评等是相对于当前可达到的最先进技术（SOTA）进行设定，在这边SOTA是指参数少于150亿的公开模型中最好的安全表现。不过最低风险则是按照一个固定的标准来定义，该标准代表著SOTA的进步目标。

也就是说，大部分的风险评等是比较模型间的相对安全性，只有最低风险评等，是设定一个绝对安全标准，鼓励所有模型朝向该标准前进。

工作组界定了13个代表安全基准的危害类别，其中暴力犯罪、非暴力犯罪、性相关犯罪、儿童性剥削、大规模毁灭性武器、仇恨以及自杀与自残行为，都包含在这次的概念性验证中，随著发展，官方会继续扩展这个分类体系。

官方提到，人工智慧安全测试是一个新兴领域，为了简单起见，该团队将概念性验证基准测试的重点，先摆在评估通用聊天的纯文字语言模型上，未来基准会继续提高严格性，并且扩大模态和使用案例范围。