【编者按】4月2日,国家互联网信息办公室发布“生成式人工智能服务已备案信息”公告。公告显示,自2023年8月31日起至2024年3月28日止,全国企业向监管机构备案的模型一共117个。这是国家网信办首次向全社会公布企业大模型备案清单,且同时告知公众,此清单未来将“定期更新”。
《互联网法律评论》观察到,除了百度、华为、阿里巴巴、字节跳动、商汤科技、腾讯、科大讯飞等著名高科技企业,在今年的备案大模型中,还出现了贝壳找房、联想(北京)、滴滴出行等知名企业,老牌制造业企业四川长虹也将自己的“长虹云帆”模型进行了备案。
大模型备案的法律依据是什么?流程又是什么?备案过程中的常见问题有哪些?企业如何做好大模型备案?《互联网法律评论》特约专家时萧楠律师进行了全面解读。
随着Sora的诞生,人们已经越来越意识到人工智能生成内容(Artificial Intelligence Generated Content,“AIGC”)可以处理更加复杂的数据类型和任务,其生成内容的效率和逼真度也将着实可期。与此同时,AIGC的法律定性、权益分配、责任承担等问题成为司法界、实务界及学界讨论的热点。
2024年4月2日,网信办公布了已经完成生成式人工智能服务备案(又称“大模型备案”)的各家大模型,并且说明未来将定期发布备案信息。至此大模型备案与生成式人工智能(“AIGC”)另一个合规备案——算法备案相同,完成备案的企业将定期被公开,完成大模型备案的企业也被掀开神秘的面纱。本文将结合目前本所项目经验说明AIGC产品合规一直披着神秘面纱的大模型备案的具体要求。
一
大模型备案法律依据
2023年8月15日生效的《生成式人工智能服务管理暂行办法》第17条规定,提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估。此处规定的安全评估即目前的生成式人工智能服务备案(大模型备案)的法律依据。
大模型备案与算法备案的区别
大模型备案 | 深度合成算法备案 | |
监管部门 | 文件递交省级网信办 中央网信办审批 | 中央网信办在线系统提交 |
适用对象 | 提供具有舆论属性或者社会动员能力的生成式人工智能服务的主体 | 1、 具有舆论属性或者社会动员能力的深度合成服务提供者 2、 所有向服务提供者提供技术服务的深度合成服务技术支持者 |
审查重点 | 基于《生成式人工智能服务管理暂行办法》以及《生成式人工智能服务安全基本要求》中规定的相关合规义务 主要以大模型实际生成内容效果为主,因此网信办会实际进行测试 | 基于《互联网信息深度合成管理规定》的相关合规义务 主要以线上提交文件审核为主 |
审查时间 | 实践中省级监管部门需要1-2个月审核,中央网信办需要根据大模型具体情况确定 | 实践中通常需要三个月时间公告 |
二
大模型备案流程
在2023年期间,网信办针对大模型备案主要是以主动通知为主,但2024年开始,诸多生成式人工智能企业为了尽早完成AIGC的全部合规要求,也开始主动提交大模型备案申请。
目前大模型备案的主要流程为:
申请受理单位:省级网信办
审核流程:省级网信办审核初步提交材料,并且对大模型自行或者委托第三方进行测试之后提交中央网信办,中央网信办审批并征求相关部委意见
三
大模型备案过程中的常见问题
1.什么类型的企业需要主动申请大模型备案:具有舆论属性或者社会动员能力的生成式人工智能服务的主体
根据《生成式人工智能服务管理暂行办法》的要求,具有舆论属性或者社会动员能力的生成式人工智能服务的主体应当完成大模型备案。具有舆论属性或者社会动员能力通常情况下根据提供的生成式人工智能服务是否具有一般用户注册、发布内容的功能进行判断。
同时在2023年,网信办倾向于针对直接向公众提供生成式人工智能服务(toC业务),且具有舆论属性或社会动员能力的主体要求进行大模型备案,但近期网信办将进一步严格要求,即使是向企业(非公众)提供服务的主体(toB业务),如果具有舆论属性或者社会动员能力的情况下,也需要完成大模型备案。
2.大模型备案的提交文件
目前网信办对大模型备案要求提交的主要为:
生成式人工智能上线备案表
附件1:安全评估报告
附件2: 模型服务协议
附件3: 语料标准规则
附件4: 拦截关键词列表
附件5: 评估测试题
3.是否可以使用境外基础大模型?
目前根据《生成式人工智能服务安全基本要求》的要求,基础模型应当是已经在主管部门完成备案的模型。
4.网信办的审核方式?
网信办(包括省级网信办和中央网信办)除了审核材料以外,还会要求提供模型的API接口进行接口测试,并且也会直接体验使用产品以及进行裸模型测试。
5.大模型备案的基本要求:TC260-003
2024年2月29日,全国网络安全标准化技术委员会发布TC260-003《生成式人工智能服务安全基本要求》(以下称“《安全基本要求》”),该文件作为大模型备案的支撑文件,明确了大模型备案过程中的主要审核要求:
?《安全基本要求》的法律效力:全国网络安全标准化技术委员会的技术文件,该技术文件的制定目的是引导网络安全技术、产业发展,不具有强制执行效力,但是目前监管部门会基于《安全基本要求》进行大模型备案的审核。
?《安全基本要求》的评估内容:
(1)语料安全要求
① 语料来源安全
根据《安全基本要求》,训练数据(语料)被根据来源区分了不同的合规要求:
通过开源协议获得:应当遵守开源许可协议或者相关授权文件;
通过自采方式获得:应当有采集记录,不应采集他人已明确不可采集的语料(包括robots协议或者其他方式声明等);
使用商业语料时:如交易方/合作方不能提供语料来源、质量、安全等方面的承诺以及相关证明材料时,不应使用,如果提供了应当进行审核。同时应有具备法律效力的交易合同、合作协议等;
使用者输入信息时:应具有使用者授权记录。
同时从整体而言,训练数据被要求建立语料应当搭配不同来源的语料训练;针对每种来源语料应当进行事先以及事后的安全评估,语料内容中有含违法不良信息超过5%的,不应采集。
② 语料内容安全
应当采取关键词、分类模型、人工抽检等方式,充分过滤语料中的违法不良信息、知识产权侵权信息、违法个人信息数据等。
违法信息主要是指如下11种信息:
a)反对宪法所确定的基本原则的;
b)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一的;
c)损害国家荣誉和利益的;
d)歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉的;
e)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动的;
f)煽动民族仇恨、民族歧视,破坏民族团结的;
g)破坏国家宗教政策,宣扬邪教和封建迷信的;
h)散布谣言,扰乱经济秩序和社会秩序的;
i)散布淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪的;
j)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益的;
k)法律、行政法规禁止的其他内容。
不良信息主要是指如下9种信息:
a)使用夸张标题,内容与标题严重不符的;
b)炒作绯闻、丑闻、劣迹等的;
c)不当评述自然灾害、重大事故等灾难的;
d)带有性暗示、性挑逗等易使人产生性联想的;
e)展现血腥、惊悚、残忍等致人身心不适的;
f)煽动人群歧视、地域歧视等的;
g)宣扬低俗、庸俗、媚俗内容的;
h)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好等的;
i)其他对网络生态造成不良影响的内容。
知识产权安全要求
a)应设置语料以及生成内容的知识产权负责人,并建立知识产权管理策略;
b)语料用于训练前,应对语料中的主要知识产权侵权风险进行识别,发现存在知识产权侵权等问题的,不应使用相关语料进行训练;
c)应建立知识产权问题的投诉举报渠道;
d)应在用户服务协议中,向使用者告知使用生成内容时的知识产权相关风险,并与使用者约定关于知识产权问题识别的责任与义务;
e)应当根据国家政策以及第三方投诉情况更新知识产权相关策略;
f)应当公开语料中涉及知识产权部分的摘要信息;
g)在投诉举报渠道中支持第三方就语料使用情况以及相关知识产权情况进行查询。
个人信息方面
在使用个人信息/敏感个人信息的语料前,应当取得个人同意或者符合法律、行政法规规定的其他情形;
③ 语料标注安全
应当对标注人员进行安全培训、考核、划分,以及制定标注规则等,确保标注内容准确性。
(2)模型安全要求
① 第三方基础模型应当使用已经在主管部门备案的基础模型;
② 应当对于模型生成内容安全、生成内容准确性、可靠性方面进行检测、采取技术措施等。
(3)安全措施要求
① 服务如果用于关键信息基础设施、自动控制、医疗信息服务、心理咨询、金融信息服务等重要场合的,应具备与风险程度以及场景相适应的保护措施;
② 服务如果适用于未成年人的,应当设置未成年人保护措施,以及不得提供与其民事行为能力不符的付费服务,并且应当积极展示有益未成年人身心健康的内容;
③ 服务应当在显著位置向社会公开服务适用的人群、场合、用途等信息,宜同时公开基础模型使用情况、服务的局限性、模型算法情况、个人信息用途等;
④ 如果收集使用者输入信息用于训练时,应为使用者提供关闭方式并告知使用者等;
⑤ 图片、视频等内容标识应当满足《网络安全标准实践指南——生成式人工智能服务内容标识方法》的要求;
⑥ 训练、推理所采用的计算系统方面应当评估芯片、软件、工具、算力等方面的供应链安全;
⑦ 接受公众或使用者投诉举报;
⑧ 向使用者提供服务时应当采取监管检测、分类模型等方式检测输入信息,以及建立拒答问题机制等;
⑨ 应当具备模型更新、升级时的安全管理策略,以及定期的安全评估;
⑩ 采取技术手段保持服务稳定、持续。
(4)其他要求
① 服务提供者应当建立关键词库,并且总规模不宜少于10000个;
② 生成内容应当有不少于2000题的测试题;
③ 针对使用者输入信息,应当根据法律法规等建立应拒答测试题库。
《互联网法律评论》特约专家
植德律师事务所合伙人