《网络安全法》修正背景下模型安全的法律保障

11月28日,第十五届信息安全法律大会在北京召开,会议以“安全的边界 执法的协同 文化的力量”为主题。信息安全与保密通信杂志社作为学术支持单位与会。在本次会议上,中国人民公安大学法学教授苏宇作了题为“《网络安全法》修正背景下模型安全的法律保障”的报告,以下为报告内容。

《网络安全法》修正背景下模型安全的法律保障

一、《网络安全法》的有关修改

网络安全法》修改时新增第二十条。该条款涉及两个方面。一方面,“国家支持人工智能基础理论研究和算法等关键技术研发,推进训练数据资源、算力等基础设施建设,完善人工智能伦理规范,加强风险监测评估和安全监管,促进人工智能应用和健康发展”,该句前半部分为支持人工智能技术研发的地方立法和具体政策制定提供了法律基础,目前法学界的相关研究还较欠缺,如人工智能三要素(数据、算力、算法)的政府投入边界、合法性框架等问题,尚未形成成熟的研究基础,这也是未来人工智能立法的重要方向,后半句则涵盖了伦理、安全和发展三大方面,其中,安全也是今天聚焦的问题。该条款更多具有导向性,未设定具体义务,如“完善”“加强”等表述并未对从业者形成强制约束;另一方面,“国家支持创新网络安全管理方式,运用人工智能新技术提升网络安全保护水平。”当前,人工智能技术在网络攻防中兼具攻击与防御双重用途,而该条侧重于发挥其在增强防御能力方面的作用,这一应用已日益普遍。

二、模型安全的风险来源

在模型安全和风险层面,全面梳理人工智能模型的所有风险绝非易事。以今年10月刚通过的《人工智能风险管理能力评估》为例,虽然列举了10类风险源,如与传统软件系统相近的风险、人工智能系统数据相关的风险等,但仍难以覆盖快速演进的各类新型风险,例如当前备受关注的Agent安全、MCP安全等模块并未被纳入。结合前沿技术实践,以下3类风险尤为值得关注,它们可以表明既有的风险认知和防护体系不一定能充分应对不断迅速演化的风险形势。

1新型投毒风险

传统人工智能训练数据投毒有多种方法,例如,理论上可以通过在大模型重点学习的高质量数据(如arXiv论文)中嵌入污染内容或后门指令,影响模型输出结果;而当前已出现更隐蔽的MCP工具投毒——攻击者在MCP工具介绍等位置中植入人眼无法察觉但大模型可读取的有毒指令,促使模型执行转发敏感内容至指定邮箱等违规操作。更值得警惕的是模型编辑投毒技术,即通过对预训练模型进行“手术式修改”,精准植入假信息,模型在回答其他问题时表现正常,仅在涉及该特定信息时出现错误,且此类污染无法通过常规毒性检测测评基准发现。这给人工智能立法带来了新的挑战,我们需要应对技术变化和人工智能风险演化的快速发展态势。

2模型搜索攻击

生成式大模型兴起初期,部分头部企业曾经面对传统的攻击方式建立较强的防御体系,但在模型搜索攻击兴起后,反而一度变成了最容易被攻破的目标。这种攻击方式是将模型攻击转化为搜索优化问题,能迅速发现模型的漏洞和缺点,且攻击能力可泛化到未见过的场景。这说明无论是测评基准还是我们设想的理想技术标准,都可能跟不上安全风险的发展变化,其更新速度的要求远远超过常规法律制度的迭代压力。

3自动化通用后门植入

以往的后门植入多为手工操作,且仅针对特定任务或场景;而当前已出现自动化、任务无关的攻击方式——在预训练模型中植入通用后门,无论下游任务是什么,都能找到对应的标签发挥作用。这类攻击和前面提到的模型搜索攻击共同指向一个新趋势:未来人工智能安全会超越传统对抗模式,出现大量“AI攻”对抗“AI防”的情况,这种迭代的快速性要求立法提前预判、主动适配。

三、模型安全的制度保障

模型安全的现有制度保障主要包括6个方面:

  • 一是“三法两条例”的系列规定
  • 二是人工智能治理方面的系列规章
  • 三是标准体系;
  • 四是测评体系;

(过去,我们主要依赖技术标准,这类标准侧重过程管理,可被视为“手术刀式”的精细管控,但测评基准更关注结果——无论采用何种技术,只要结果符合预期即可,这种结果导向的管理方式,更有利于构建支持人工智能健康发展的制度环境。以强化学习为例,有研究表明,其效果可以一定条件下等价于采样策略的调整,一些衍生模型开发任务可以通过调整采样策略实现,而无需严格遵循既定技术路线及标准流程。只要最终测评结果达到要求,就体现了技术的有效性,这为创新提供了更大的灵活性和空间。)

  • 五是人工智能伦理规范;

(这是目前我们在探索且相对形成共识的领域,如“以人为本”的共识,但部分核心领域仍有争议,落地执行缺乏明确依据。)

  • 六是其他软法性文件。

(比如今年9月出台的《人工智能 安全治理框架2.0》,由全国网络安全标准化技术委员会和国家计算机网络应急技术处理协调中心联合发布,对人工智能安全有指导作用,但该文件不同于立法,其针对安全风险列举的应对措施较为宏观宽泛,对于直接适配前沿实践需求、形成精准落地的实施方案而言,还需要更多深入、细致的工作。)

以框架中“提升可解释性”为例,生成式人工智能的可解释性尚未形成,且深度学习算法解释研究热度已稍不如前,而自然语言解释成为更具吸引力的探索方向,但还远未臻于成熟,所以可解释性不足可能会持续伴随技术发展一段时间,而不能强行要求迅速克服;“扩大训练数据的规模和多样性”的传统认知也被遭遇挑战——若干研究表明,一定条件下更小的高质量数据集训练效果优于单纯扩大数据规模,且用户虚拟数据、交互数据有时反而会拖累模型性能。此外,“降低模型易受注入攻击的风险”等问题的应对方案,也需随技术发展持续优化。

此外,现有安全防护措施均存在“优势与缺陷并存”的特点:例如,模型加固的基础是对齐,需要在训练、推理、精调等各个阶段进行,但理论上,只要有足够长的上下文,就有可能拉偏分布而绕过对齐机制,因此仅靠对齐无法完全保障安全;RAG技术可以同时解决幻觉和可控性问题,但目前技术尚不完善,且存在沉重、不便携、不利于端侧部署的问题,还容易被污染(指定数据难以分离,导致指令混入数据);护栏是现在最常用的手段,包括前护栏、后护栏、中间护栏,但它的负担最重,容易误伤正常使用需求,因特殊需求调高护栏时潜在误伤可能性更高,且同样存在沉重、不便端侧部署的问题。可见,每一项安全防护措施都有其优势和缺陷,立法时需要考虑整体安全架构,找到平衡发展与安全的方案,这是一个需要探索的过程。

四、立法探索

面对快速变化、不断衍生的风险,法律制度该如何应对?我个人的思考是,当前法律多集中于规则光谱的上下两端:最上端是“手术刀式”的制度,明确行为义务规则并要求完全遵守,《网络安全法》中就有大量这类规则,做不到就会受到处罚;最下端是单纯的建议,即各类软法性质的框架和指南。而中间地带的弹性规则亟待加强。

1“安全港”规则

“安全港”规则并不局限于常见的“避风港”或“通知-删除”机制,其适用范围广泛,涵盖证券、破产、医疗、资产保护等多个领域。该规则本质上是一种“合规即免责”的机制:若完全遵循推荐的合规模板操作,即便发生意外也可免责;若未完全遵循模板,但能够证明所采取的措施具有同等或更优的作用,同样也可免责。这为不同技术路线提供了更大的弹性和包容度,而人工智能领域可以通过一系列测评基准来衡量其是否达到同等或更优水平,这属于“技术安全港”。此外还有“接纳安全港”,即针对风险认知和沟通的主观性,只要实施一定流程,就认为其满足主观安全需求。对于难以预知的意外风险,如需同时实现“通知-删除”乃至“通知-过滤”的动态防护要求(不仅要删除已发现的风险点,还要过滤类似风险点),也可以做成安全港,鼓励采取风险消除措施,并在发现问题后及时响应甚至升级措施,从而实现静态安全与动态响应安全的结合。

2“遵守”或“解释”规则

“遵守”或“解释”规则常见于国际贸易、国际经济法领域,要求优先遵守,若因技术特性或应用场景无法遵守,需提出充分合理的解释,说明限制因素及替代措施。监管部门和法院对解释的合理性进行认定,也可提前明确允许不遵守的合理情形,既保障基本安全底线,又为技术创新预留空间。

3“参考”和“影响”规则

“参考”和“影响”规则列出的内容不强制要求遵守,但遵守后会在监管执法和司法过程中,对论证行为的合法性、正当性产生积极影响,推荐性技术标准就属于这类,其他软法性文件也可发挥参考影响效应。

因此,明确的行为义务规则应主要限于严格限定的红线安全要求,而大量其他规则应形成丰富的规则谱系,支撑人工智能法治乃至整个网络安全、信息安全法治走向更具弹性和灵活度、兼顾发展与安全的法律规则体系。

-END-


《网络安全法》修正背景下模型安全的法律保障
《网络安全法》修正背景下模型安全的法律保障
公安/铁路专用U盘发布
《网络安全法》修正背景下模型安全的法律保障

原创文章,作者:lishengli,如若转载,请注明出处:https://www.lishengli.com/lee/5181.html

Like (1)
lishengli的头像lishengli
Previous 5小时前
Next 2小时前

相关推荐

发表回复

Please Login to Comment