新聞 | iThome ( ) • 2024-04-01 13:45
图片来源: 

微软

为了防止Azure AI服务及模型遭输入恶意指令产出有害内容、泄露个资,微软宣布提供多项工具,可侦测及防范提示注入攻击、AI幻觉、AI模型滥用等问题,目前已提供部份功能的测试。

随著企业及消费者普及使用生成式AI,相关风险也随之而来,包括提示注入(prompt injection)攻击,或是滥用AI系统漏洞等,让AI聊天机器人做出规范以外的行为,如泄露可辨识身份的个资(personally identifiable information,PII)或企业智财。为此微软公布一系列新工具,包括提示防护罩(Prompt Shields)及AI模型幻觉侦测、系统范本、越狱评估工具和风险与安全监控工具,即将推向Azure AI Studio给开发商开发生成式AI App。

其中提示防护罩能即时侦测并阻断基础模型接收到恶意提示。提示防护罩是基于去年11月微软推出的越狱风险侦测(jailbreak risk detection)扩充。微软说明,提示注入包含直接的越狱(jailbreaks)及间接攻击,前者使用者为攻击者本身,利用复杂指令如思维链(chain-of-thought)或要求角色扮演诱导AI助理产生恶意内容或泄露资讯。后者攻击者为第三方,但让AI模型以为输入的内容来自使用者而执行,例如AI为无辜的用户简述电子邮件内容,但不知道内容其实包含恶意指令,可被AI模型执行。间接攻击手法更隐晦、高明而难以察觉。最新工具强化输入提示的侦测,防范对象由原本的直接攻击再加入间接攻击。「提示防护罩」不久后将整合到Azure AI Content Studio之中。

微软还宣布了其他改善生成式AI服务安全性的工具。首先是真实性(Groundedness)侦测工具,能侦测文字结果的「不真实」(ungrounded)内容,可防范AI模型幻觉问题。另外,微软也即将在Azure AI Studio及Azure OpenAI Service加入安全的系统讯息范本,让AI应用开发人员能建立安全的系统讯息,导引模型使用训练资料及正确的行为。