新规详解:中国将如何监管生成式AI?
正在全球“狂飙”的ChatGPT们,已经被人类踩下监管的“刹车键”。本文来自微信公众号: Internet Law Review(ID:Internet-law-review) ,作者:时萧楠(植德律师事务所合伙人),原文标题:《监管观察丨中国将如何监管生成式AI?十点专业详解!》,题图来自:视觉中国
2023年4月11日,国家互联网信息办公室 (以下简称国家网信办) 为促进生成式人工智能技术健康发展和规范应用,根据《网络安全法》《个人信息保护法》等法律法规起草了《生成式人工智能服务管理办法(征求意见稿)》 (以下简称“《人工智能办法》”) ,并向公众征求意见。
而在2021年12月31日,国家网信办、工业和信息化部、公安部、国家市场监督管理总局联合发布的《互联网信息服务算法推荐管理规定》 (以下称“《算法推荐规定》”) 以及2022年11月25日国家网信办、工业和信息化部、公安部联合发布的《互联网信息服务深度合成管理规定》 (以下称“《深度合成规定》”) 中均对与人工智能相关的深度合成类算法进行了规定。
从本次征求意见的《人工智能办法》可以看出,国家网信办是针对国内外已经发生的生成式人工智能法律风险、道德风险的大背景下制定的。
本文将从十个层面详细解读《人工智能办法》的整体监管原则,以及在已有的规定基础之上提出了哪些新的合规、监管要求。
一、向境内公众提供服务的生成式人工智能产品/服务应当适用《人工智能管理办法》
根据征求意见的《人工智能办法》第2条的规定,“研发、利用生成式人工智能产品,面向中华人民共和国境内公众提供服务的,适用本办法”,因此无论生成式人工智能产品/服务是在哪个国家研发、上架, 只要面向中国境内公众提供服务,就需要遵守本规定。
这也提醒正在研究接入ChatGPT或者已经接入ChatGPT的公司注意,一旦接入ChatGPT向中国公众提供服务,则需要遵守本规定,包括完成算法备案等。
二、国家网信办明确国家支持生成式人工智能技术发展
生成式人工智能是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术 (征求意见的《人工智能办法》第2条第2款) ,ChatGPT就是文本类生成式人工智能的典型代表。但ChatGPT近期被爆出“会暂时向其他用户公开AI聊天历史记录”,以及今年年初不同的版权人在美国及英国向Stability AI (图像类生成式人工智能的代表) 发起的版权侵权诉讼,均使生成式人工智能的知识产权、数据隐私问题受到大家的关注。
现在已经有多个国家对ChatGPT发出禁令或者警告等 (意大利、英国) ,在这样的大背景下,国家网信办目前向公众征求意见的《人工智能办法》第3条给出监管的主旨原则,仍是国家明确支持人工智能算法、框架等基础技术的自主创新、推广应用、国际合作,鼓励优先采用安全可信的软件、工具、计算和数据资源。
三、生成式人工智能内容应当体现社会主义核心价值观
根据《算法推荐规定》以及《深度合成规定》,生成式人工智能的核心技术——深度合成类算法的服务提供者、技术支持者已经被要求对深度合成类算法相关的内容进行审核、识别违法和不良信息的特征库等。
但本次征求意见的《人工智能办法》第4条(一)更是进一步明确生成式人工智能产品或服务应当整体在内容审核方面体现社会主义核心价值观,这不仅仅包括之前的“深度合成类算法”相关的训练数据、算法模型本身、生成内容, 更包括用户的输入内容,这需要生成式人工智能的产品/服务提供者全方位加强内容审核。
四、生成式人工智能应当遵守法律法规要求,尊重社会公德、公序良俗
征求意见的《人工智能办法》第4条(二)至(五)在不得宣扬民族歧视、暴力、虚假信息;尊重知识产权、商业道德 (例如违反商业道德的数据爬取) ;避免侵犯个人肖像权、名誉权、个人隐私等方面进行了强调。
这些方面均是截止目前生成式人工智能所展现出的问题, 通过相关条款可以看出日后国家网信办以及相关主管部门在监管方面将从上述各项着手进行监管, 民事权利的权利人 (知识产权、肖像权等) 也可能在前述方面进行诉讼维护自身权益。
五、生成式人工智能的责任主体
关于人工智能造成损害时的法律责任主体以及法律责任承担,欧盟在2022《欧盟人工智能责任指令》提案中就已提出,而本次国家网信办征求意见的《人工智能办法》第5条中规定“利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人 (以下称“提供者”) ,包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任”, 明确了利用生成式人工智能产品提供服务的主体应当承担内容生产者的责任。
例如如果有用户因基于生成人工智能输出的医疗信息内容,服用了某些药物导致受到了身体上的损害,其生成式人工智能产品提供者应当作为医疗信息内容提供者承担相应的法律责任。
但目前的条款对于“利用生成式人工智能产品提供服务的提供者”承担的具体法律责任尚未明确,希望最终发布版可以对此进行清晰的规定。
六、算法备案需要上线前完成
《算法推荐规定》以及《深度合成办法》中均对深度合成式算法的算法备案进行了明确规定:具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《互联网信息服务算法推荐管理规定》履行备案和变更、注销备案手续;深度合成技术支持者应当履行备案和变更、注销备案手续,同时规定提供服务之日起十个工作日内通过互联网信息服务算法备案系统完成备案。
但目前征求意见的《人工智能办法》第6条规定“利用生成式人工智能产品向公众提供服务前”向国家网信办申报安全评估,并且履行算法备案相关手续。
可见目前征求意见的《人工智能办法》与现行的《算法推荐规定》以及《深度合成办法》存在不一致,对此尚需等待最终公布版国家网信办明确生成式人工智能算法备案的具体规定。但如果最终与征求意见稿一致,则作为同样都是国家网信办的规定,依照新法优于旧法的原则,生成式人工智能今后需要向国家网信办申报安全评估,并且完成算法备案后才能上线。
另外目前实践中,虽然截止目前公布的三批境内互联网信息服务算法备案清单中,已有10个生成合成算法,但2023年1月以后,再没有新的深度合成类算法的备案信息被公示,经笔者了解虽然已经有多家公司完成了备案,但尚未进行公示。 可见如果今后要完成备案才能上线,国家网信办无疑将面临巨大的申报压力。
七、针对训练数据的要求
生成式人工智能的基础是训练数据,ChatGPT最初使用的算法模型GPT3.5就已经宣布使用了1750亿量级的训练数据,而目前在美国、英国发生的版权诉讼均是针对训练数据中未经授权使用美术作品的行为。在需要大量训练数据的情况下,未经授权使用知识产权、个人信息;违反商业道德 (例如违反Robots协议) 爬取数据都是极易发生的行为。
因此国家网信办在征求意见的《人工智能办法》第7条中明确了利用生成式人工智能提供服务的主体 对训练数据的合法性承担责任 ,包括遵守《网络安全法》的规定、不得侵犯知识产权、个人信息以及保证数据的真实性、多样性等。
同时在机器学习中的无监督学习 (无需人工进行标注) 尚未普及的情况下,还是有大量提供者需要通过人工进行标注的方式进行训练数据的管理,国家网信办也在《人工智能办法》第8条对此作出了要求,“提供者应当制定符合本办法要求,清晰、具体、可操作的标注规则,对标注人员进行必要培训,抽样核验标注内容的正确性。”
八、针对监督用户使用的要求
首先, 提供者应当对用户进行真实身份认证。
根据征求意见的《人工智能办法》第9条规定,使用生成式人工智能的用户,应当提供真实身份信息。对此在《深度合成办法》中已经有规定,服务提供者应当基于移动电话号码、身份证件号码、统一社会信用代码或者国家网络身份认证公共服务等方式对使用者进行真实身份信息认证。
但目前《人工智能办法》并未明确身份认证的具体方法,是否可以通过移动电话号码的方式完成身份的间接认证,还是必须要像直播开播、银行金融服务等情况下通过身份证完成直接的身份认证。
其次, 提供者应当防止用户过分依赖或沉迷。
征求意见的《人工智能办法》第10条规定“提供者应当明确并公开其服务的适用人群、场合、用途,采取适当措施防范用户过分依赖或沉迷生成内容。”根据目前其他场景下的防沉迷措施 (例如短视频等) ,如果不涉及未成年人的防沉迷,则提供者可以通过定时弹窗提示用户的方式履行本条合规义务;如果涉及未成年人,还应当遵守未成年人的相关法律规定。
再者, 提供者应对用户输入内容承担保护义务。
根据征求意见的《人工智能办法》第11条规定,“提供者在提供服务过程中,对用户的输入信息和使用记录承担保护义务。不得非法留存能够推断出用户身份的输入信息,不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息。”
其实早在2009年,美国网络视频公司Netflix就曾因为放出“经过匿名处理的”上亿条电影评分数据,被德州大学的两位研究人员通过与公开的IMDB数据比对,将匿名电影评论与具体用户进行了对应,更不用说近期ChatGPT因为Bug泄漏了用户的输入信息,因此国家网信办要求生成式人工智能提供者应当对用户的输入信息和使用记录应当采取保护措施,同时自己也不得非法留存可以推断出用户身份的输入信息,不得进行用户画像等。
但实践中如何判断“能够推断出用户身份的输入信息”将成为问题,这尚需要行业实践得出解决方案。
最后, 提供者应当指导用户合理使用生成式人工智能,发现违法使用应当停止服务 。
利用生成式人工智能的深度伪造 (Deepfake) 技术用于诈骗,一直是生成式人工智能的重大法律风险,所以国家网信办在《深度合成规定》要求服务提供者进行“人工智能生成”等显著标记的基础之上,进一步要求提供者对用户的使用行为进行指导,以及如果发现违反法律法规,违背商业道德、社会公德行为时,包括从事网络炒作、恶意发帖跟评、制造垃圾邮件、编写恶意软件,实施不正当的商业营销等,应当暂停或者终止服务,这无疑是增加了提供者的合规义务,需要提供者增加对用户使用行为的管理。
九、针对生成内容的要求
根据征求意见的《人工智能办法》第12、13、15、16、18条规定,提供者应当对生成的内容进行管理,包括:
-
不得根据用户的种族等生成歧视性内容。
-
建立用户投诉机制,发现生成内容中存在侵犯名誉权、个人隐私、商业秘密等其他内容时,应当采取措施。
该条规定将有利于生成式人工智能上线初期,不了解生成内容可能生成的内容是否构成侵权的情况, 《人工智能办法》设置了一个接近“避风港原则”的规定, 如果用户进行了投诉,应当采取措施。但需要注意的是,这不能规避提供者对训练数据的合法性要求,不能基于本条规定就在训练数据中存储大量未经授权或者侵犯他人合法权益/权利的数据内容。
-
对于不符合法律规定的生成内容,除进行内容过滤外,还应当在3个月内优化算法模型;
国家网信办针对生成内容发生侵权等情况时,除了内容过滤外,还应当对算法进行优化。
-
对生成内容进行显著标识人工智能生成。
该条规定是在《深度合成规定》中已经明确的。
-
用户发现生成内容不合法时,有权向网信部门或者有关主管部门举报。
同时需要注意,《人工智能办法》第17条规定,“提供者应当根据国家网信部门和有关主管部门的要求,提供可以影响用户信任、选择的必要信息”,但该条款无法看出国家网信办要求提供者如何提供,同时要求提供的必要信息,例如“预训练和优化训练数据的来源、规模、类型、质量等描述”,在算法备案过程同样需要提供,因此本条的规定与算法备案的关系尚需进一步明确。
十、行政处罚
根据征求意见的《人工智能办法》第20条规定,网信部门和有关主管部门可以依据《网络安全法》《数据安全法》《个人信息保护法》等法律法规进行处罚,根据《人工智能办法》的各条款规定,可能涉及的法律法规还包括《著作权法》《民法典》《治安管理处罚法》《刑法》等,当然如果是《著作权法》《民法典》的话,则监管单位则不是网信部门,具体需要根据生成式人工智能产品/服务违反的法律规定以及侵害的第三方权益确定。
同时《人工智能办法》第20条明确规定,“法律、行政法规没有规定的,由网信部门和有关主管部门依据职责给予警告、通报批评,责令限期改正;拒不改正或者情节严重的,责令暂停或者终止其利用生成式人工智能提供服务,并处一万元以上十万元以下罚款。”
不过,根据《行政处罚法》的规定,对尚未制定法律、行政法规的,国务院部门规章对违反行政管理秩序的行为,可以设定警告、通报批评或者一定数额罚款的行政处罚。罚款的限额由国务院规定。因此国家网信办有权对尚未制定法律、行政法规的违反行为规定一定程度的行政处罚,但仍需确认一万到十万是否为适当的罚款金额。
最后期待《人工智能办法》的最终版公布以及生效,使得生成式人工智能产品/服务可以有序发展,实现我国生成式人工智能的突破式发展。
本文来自微信公众号: Internet Law Review(ID:Internet-law-review) ,作者:时萧楠(植德律师事务所合伙人)