3.2 人工智能安全体系架构与分类
3.2.1 人工智能安全体系架构
从人工智能内部视角看,人工智能系统和一般信息系统一样,难以避免地会存在脆弱性,即人工智能的内生安全问题。一旦人工智能系统的脆弱性在物理空间中暴露出来,就可能引发无意为之的安全事故。需要注意,即便一个人工智能系统的脆弱点未暴露,其依然可被不法分子恶意利用,进而危及社会安全。比安全事故和恶意利用这种局部问题更严重的是,很多国家开始借助人工智能技术的强大特性构建致命性自主武器,这种新型军事打击力量以及由此引发的军备竞赛可威胁国家安全。长远看来,还有一类具有移动性、破坏力、可自主学习的人工智能系统(如智能机器人),可在无人干预情况下自我进化,因此有可能在未来某一时刻突然从人类为其设定的约束条件中逃逸,进而危及人类安全,这也是人工智能的衍生安全问题。
从人工智能外部视角看,人们直观上往往会认为人工智能系统可以单纯依靠人工智能技术构建,但事实上,单纯考虑技术因素是远远不够的,人工智能系统的设计、制造和使用等环节,还必须在法律法规、国家政策、伦理道德、标准规范的约束下进行,并具备常态化的安全评测手段和应急时的防范控制措施。其中,法律法规强制要求人工智能系统的功能和使用不可违法违规;国家政策强制要求安全攸关的人工智能系统必须满足公平性、透明性、可解释性和可追溯性等原则,从而可以降低风险及按需问责;国际或本国伦理道德规范为人工智能系统研制提供了必须严格遵守的原则;标准规范的制定可提升人工智能系统研发效率,减少脆弱性,并使得智能群体之间可协同工作;安全评测可发现人工智能系统和产品存在的内生安全问题、法律与伦理偏离问题等;防范控制可在AIA出现失控迹象时及时采取措施。
综上,可将人工智能安全分为3个子方向:人工智能助力安全(AI for Security)、人工智能内生安全(AI Security)和人工智能衍生安全(AI Safety)。其中,人工智能助力安全体现的是人工智能技术的赋能效应;人工智能内生安全和衍生安全体现的是人工智能技术的伴生效应。人工智能系统并不是单纯依托技术而构建的,还需要与外部多重约束条件共同作用,以形成完备合规的系统。人工智能安全体系架构及外部关联如图3.1所示。
图3.1 人工智能安全体系架构及外部关联
3.2.2 人工智能助力安全
人工智能助力安全主要表现为助力防御和助力攻击两个方面。
在助力防御方面,防御者正在利用人工智能技术提升和扩展其原有的防御方法。防御者可利用计算机视觉技术助推物理智能安防监控产业快速发展,从而提升防盗报警、防爆安检等物理安全保障能力;利用机器学习算法,构建可在运行时不断自我提升的智能入侵检测系统;利用深度学习和机器学习技术检测未知特征的恶意代码,提升网络威胁发现能力;引入网络攻防知识图谱,使得“人机结合”的威胁猎杀更加高效,从而发现关键信息资产中潜伏的隐蔽威胁;基于海量用户与实体行为的正常历史数据,构建异常检测系统,从而发现偏离正常轨迹的可疑行为。由此可见,融入了人工智能因素的网络空间防御系统可弥补传统方法的不足,为网络空间安全防御提供新方法。
在助力攻击方面,攻击者可能利用人工智能技术突破其原有能力边界。攻击者借助人工智能技术,可以实现自动化漏洞挖掘、构建智能恶意代码、为神经网络模型植入后门、自动化构造鱼叉式钓鱼邮件、精准锁定目标、深度隐藏攻击意图、生成高逼真度假视频等攻击方法,从而提升漏洞挖掘效率和降低成本、提升恶意代码免杀和隐蔽通信能力、污染神经网络模型供应链、实现无人介入的鱼叉式钓鱼邮件大面积投放、提升网络攻击的精准打击和意图隐藏能力、实现伪造欺骗等新形态攻击能力。因此,融入了人工智能技术的网络攻击已经涵盖了攻击准备、生存对抗、武器投递、目标识别、意图隐藏、网络欺骗这个较为完整的攻击链,且使得攻击链上各节点的能力都有明显提升,这必将给防御工作带来新的挑战。
另外,智能工具[1]还可以被恶意用于恐怖袭击或舆论引导。智能工具应用的初衷往往是常规民用,但别有用心的极端分子可能利用智能工具发起恐怖袭击(如用无人机携带炸药)或引导舆论走向(如恶意利用Twitter Bot和Deepfake等发布虚假的不良信息),以服务于军事或政治企图。因为在民用智能工具上附加恶意载荷很难被禁止和防范,且极端分子往往不顾及法律的约束,所以智能工具被恶意利用的情况可能会长期存在。此外,由于人工智能技术在精准识别、高速决策、群体灵敏协同等方面具有显著优势,使其非常适合被用于自主武器之中。
本书第4章将从防御和攻击两方面详细介绍人工智能助力安全技术的若干进展。
3.2.3 人工智能内生安全
人工智能内生安全指的是人工智能系统自身存在脆弱性。脆弱性的成因包含诸多因素,人工智能框架/组件、数据、算法、模型等任一环节都可能给系统带来脆弱性。
在框架/组件方面,难以保证框架和组件实现的正确性和透明性是人工智能的内生安全问题。框架(如TensorFlow、Caffe)是开发人工智能系统的基础环境,相当于人们熟悉的Visual C++的SDK库或Python的基础依赖库,重要性不言而喻。当前,国际上已经推出了大量的开源人工智能框架和组件,并得到了广泛使用。然而,由于这些框架和组件未经充分安全评测,可能存在漏洞甚至后门等风险。一旦基于不安全框架构造的人工智能系统被应用于关乎国计民生的重要领域,这种因为“基础环境不可靠”而带来的潜在风险就更加值得关注。
在数据方面,缺乏对数据正确性的甄别能力是人工智能的内生安全问题。人工智能系统从根本上还是遵从人所赋予的智能形态,而这种赋予方式来自于学习,学习的正确性则取决于输入数据的正确性,输入数据的正确性是保证生成正确的智能系统的基本前提。同时,人工智能在实施推理判断的时候,其前提也是要依据所获取的数据来进行判断。因此,人工智能系统高度依赖数据获取的正确性。然而,数据正确的假定是不成立的,有多种原因使得获取的数据质量低下。例如,数据的丢失和变形、噪声数据的输入,都会对人工智能系统形成严重的干扰。
在算法方面,难以保证算法的正确性也属于人工智能的内生安全问题。智能算法可以说是人工智能的引擎,现在的智能算法普遍采用机器学习的方法,就是直接让系统面对真实可信的数据来进行学习,以生成机器可重复处理的形态。最经典的当属神经网络与知识图谱。神经网络是通过“输入-输出”对来学习已知的因果关系,通过神经网络的隐含层来记录所有已学习过的因果关系经过综合评定后所得的普适条件。知识图谱是通过提取确定的输入数据中的语义关系,来形成实体、概念之间的关系模型,从而为知识库的形成提供支持。两者相比,神经网络是一个黑盒子,其预测能力很强;知识图谱是一个白盒子,其描述能力很强。智能算法存在的安全缺陷一直是人工智能安全中的严重问题。例如,对抗样本就是一种利用算法缺陷实施攻击的技术,自动驾驶汽车的许多安全事故也可归结为由于算法不成熟而导致的。
在模型方面,难以保证模型不被窃取或污染同样属于人工智能的内生安全问题。通过大量样本数据对特定的算法进行训练,可获得满足需求的一组参数,将特定算法和训练得出的参数整合起来就是一个特定的人工智能模型。因此,可以说模型是算法和参数的载体并以实体文件的形态存在。既然模型是一个可复制、可修改的实体文件,就存在被窃取和被植入后门的安全风险,这就是人工智能模型安全需要研究的问题。
本书的第5章将从数据安全、框架安全、算法安全、模型安全、运行安全等角度介绍人工智能自身存在的脆弱性。
3.2.4 人工智能衍生安全
人工智能衍生安全指人工智能系统因自身脆弱性而导致危及其他领域安全。衍生安全问题主要包括4类:人工智能系统因存在脆弱性而可被攻击;人工智能系统因自身失误引发安全事故;人工智能武器研发可能引发国际军备竞赛;AIA一旦失控将危及人类安全。
人工智能系统因存在脆弱性而被攻击,与内生安全中所说的脆弱性之间的关系,相当于一个硬币的正反面。因为人工智能系统存在脆弱性,所以可被攻击进而导致安全问题。例如,可利用自动驾驶汽车的软件漏洞远程控制其超速行驶,自动驾驶汽车自身存在的漏洞是内生安全问题,由此导致的车辆被攻击进而超速行驶就是衍生安全问题。
人工智能系统因算法不成熟或训练阶段数据不完备等原因,导致其常常存在缺陷。这种缺陷即便经过权威的安全评测也往往不能全部暴露出来。这样,人工智能系统在投入实际使用时,就容易因自身缺陷而引发人身安全问题。当前,具有移动能力和破坏能力的人工智能行为体,可引发的安全隐患尤为突出。
人工智能技术因强大而可以赋能武器研发,这属于助力攻击范畴,但这种赋能效应并不会简单地停留在赋能武器研发上,还会因为缺乏行之有效的国际公约而难以控制国家间的军备竞赛,这将给人类安全及世界和平带来巨大威胁。因此,本书将人工智能武器研发可能引发的国际军备竞赛列入衍生安全范畴。
AIA一旦同时具有行为能力以及破坏力、不可解释的决策能力、可进化成自主系统的进化能力这3个失控要素(详见第6章),不排除其脱离人类控制和危及人类安全的可能。AIA失控这个衍生安全问题,无疑是人类在发展人工智能时最关注的首要问题。
本书从第6章开始从人工智能系统失误而引发的安全事故、人工智能武器研发可能引发的国际军备竞赛、人工智能失控风险与要素、预防人工智能技术失控的举措等角度介绍人工智能衍生安全问题及可能的应对方法。