优享资讯 | 微软推出能防止提示注入、侦测幻觉的Azure AI安全工具

新聞 | iThome ( ) • 2024-04-01 13:45

图片来源:

微软

为了防止Azure AI服务及模型遭输入恶意指令产出有害内容、泄露个资，微软宣布提供多项工具，可侦测及防范提示注入攻击、AI幻觉、AI模型滥用等问题，目前已提供部份功能的测试。

随著企业及消费者普及使用生成式AI，相关风险也随之而来，包括提示注入（prompt injection）攻击，或是滥用AI系统漏洞等，让AI聊天机器人做出规范以外的行为，如泄露可辨识身份的个资（personally identifiable information，PII）或企业智财。为此微软公布一系列新工具，包括提示防护罩（Prompt Shields）及AI模型幻觉侦测、系统范本、越狱评估工具和风险与安全监控工具，即将推向Azure AI Studio给开发商开发生成式AI App。

其中提示防护罩能即时侦测并阻断基础模型接收到恶意提示。提示防护罩是基于去年11月微软推出的越狱风险侦测（jailbreak risk detection）扩充。微软说明，提示注入包含直接的越狱（jailbreaks）及间接攻击，前者使用者为攻击者本身，利用复杂指令如思维链（chain-of-thought）或要求角色扮演诱导AI助理产生恶意内容或泄露资讯。后者攻击者为第三方，但让AI模型以为输入的内容来自使用者而执行，例如AI为无辜的用户简述电子邮件内容，但不知道内容其实包含恶意指令，可被AI模型执行。间接攻击手法更隐晦、高明而难以察觉。最新工具强化输入提示的侦测，防范对象由原本的直接攻击再加入间接攻击。「提示防护罩」不久后将整合到Azure AI Content Studio之中。

微软还宣布了其他改善生成式AI服务安全性的工具。首先是真实性（Groundedness）侦测工具，能侦测文字结果的「不真实」（ungrounded）内容，可防范AI模型幻觉问题。另外，微软也即将在Azure AI Studio及Azure OpenAI Service加入安全的系统讯息范本，让AI应用开发人员能建立安全的系统讯息，导引模型使用训练资料及正确的行为。