关键词:
人工智能
安全攻击
攻击检测
防御策略
模型安全
摘要:
近年来,以深度学习为代表的人工智能技术发展迅速,在计算机视觉、自然语言处理等多个领域得到广泛应用.然而,最新研究表明这些先进的人工智能模型存在潜在的安全隐患,可能影响人工智能技术应用的可靠性.为此,深入调研了面向人工智能模型的安全攻击、攻击检测以及防御策略领域中前沿的研究成果.在模型安全攻击方面,聚焦于对抗性攻击、模型反演攻击、模型窃取攻击等方面的原理和技术现状;在模型攻击检测方面,聚焦于防御性蒸馏、正则化、异常值检测、鲁棒统计等检测方法;在模型防御策略方面,聚焦于对抗训练、模型结构防御、查询控制防御等技术手段.概括并扩展了人工智能模型安全相关的技术和方法,为模型的安全应用提供了理论支持.此外,还使研究人员能够更好地理解该领域的当前研究现状,并选择适当的未来研究方向.