AIGC产品的生命周期透视(下)大模型与产品的运行合规
AIGC产品的生命周期透视(下)大模型与产品的运行合规
引言
筆(bǐ)者此前已在《AIGC产品的生命周期透视(上)数据与代码的授权合规》一文(wén)中就AIGC产品训练初期的数据内容、数据集以及代码的授权合规提出建议,本文(wén)将继续探讨大模型、AIGC产品的运行合规路径,从而通过上下篇将AIGC产品生命周期进行完整梳理(lǐ),剖析AIGC产品从0到1过程中的合规风险,以期更好助力中國(guó)大模型和AIGC产品行业的蓬勃发展,為(wèi)AIGC产品合规提供有(yǒu)益借鉴。
為(wèi)帮助读者全面理(lǐ)解AIGC产品的生命周期,在上篇中筆(bǐ)者以下图為(wèi)例将AIGC产品分(fēn)為(wèi)数据内容;数据集;代码、算法与程序;大模型;AIGC产品;生成内容等6个重要风险合规要点,本篇仍引用(yòng)此图继续讨论剩余3个合规风险要点。
一、大模型的运行合规
1、大模型运行的风险
从上图显示的技术流程来看,大模型本质上已经脱离数据集独立运行,在经过模型对数据集进行训练后,数据集中的相关内容被“内化"成大模型一部分(fēn),由AIGC产品接入后根据用(yòng)户输入而生成内容。所以,大模型可(kě)谓是AIGC产品形成流程中的核心权利节点,既是进一步开发AIGC产品、获得收益的基石,但亦要首当其冲地承担各类合规风险,是被数据内容权利人维权的首要对象。例如自2023年6月起,作為(wèi)GPT系列模型的所有(yǒu)人,Open AI接连遭遇作家集體(tǐ)诉讼案,诉其在未经许可(kě)的情况下批量复制受版权保护的作品并输入到大语言模型中;除此之外,Open AI及相关公司还遭遇了30亿美金的集體(tǐ)诉讼,诉其未经用(yòng)户同意将抓取的私人信息用(yòng)于创建其人工智能(néng)产品。
从大模型内部细分(fēn)来看,大模型自完成预训练始,又(yòu)可(kě)分(fēn)為(wèi)通用(yòng)版本、微调版本、优化修改形成Demo版本或衍生版本。例如在通用(yòng)大模型上加入金融、法律、医药等行业的私有(yǒu)数据、参数进行微调,形成适用(yòng)特定行业的垂直模型。当然,此类衍生和微调同样需遵守通用(yòng)版本大模型的许可(kě)协议,从而避免侵害大模型权利的风险。此外,与前一环节的数据集训练不同,模型训练所使用(yòng)的数据集往往采集自公开网络数据,而大模型微调环节使用(yòng)的私有(yǒu)数据将涉及商(shāng)业秘密、受竞争法保护的数据权益等,例如Bloomberg-GPT收缩其通用(yòng)数据集比例至48.73%,其他(tā)51.2%属于新(xīn)增的金融数据,这包括收费数据和私有(yǒu)数据。[1]
2、大模型运行的合规路径
(1)训练数据合规仍是根基
AIGC产品生成内容的源头实质来自于原始数据集,大模型通过训练(也是模仿學(xué)习的过程)数据集内容从而实现自我创作,但如果大模型生成内容对于训练数据的依赖性较强,即使经过训练后其自我生成的内容与数据集内容仍存在相同或相似,就将可(kě)能(néng)导致侵权风险。由此,在上篇中筆(bǐ)者建议,控制训练数据内容的合规是从根源上把控模型及后续产品合规的关键,例如通过原创数据内容开展训练、使用(yòng)获得授权数据内容、使用(yòng)清洗和优化的数据内容等,从而弥补大模型本身依赖于数据集原始数据内容的弊端。当然,大模型若能(néng)够实现真正的“独立创作",根据用(yòng)户输入而生成内容能(néng)与数据集内容完全不同,亦或是能(néng)够在不接触(实际是不使用(yòng)对应数据内容训练)的情形下而基于相同创意创作相同或相似作品,那么关于数据内容能(néng)否被用(yòng)于模型训练的问题就需要通过合理(lǐ)使用(yòng)抗辩解决,关于该部分(fēn)此前筆(bǐ)者在《ChatGPT的著作权规制》一文(wén)中进行探讨分(fēn)析,此处将不再展开。
(2)私有(yǒu)数据合规
私有(yǒu)数据涉及的法律风险将遠(yuǎn)遠(yuǎn)高于采集于公开网络的训练数据,且无法通过主张合理(lǐ)使用(yòng)抗辩。由此,若开发者在微调或修改中使用(yòng)私有(yǒu)数据打造适用(yòng)特定行业的垂直模型,应与私有(yǒu)数据持有(yǒu)人进行合作,并由数据持有(yǒu)人提供数据集,并对数据内容作权利无瑕疵保证,同时对数据内容归属、大模型归属、生成内容权属、未来收益等进行相应约定。
当然,对于产品开发者而言,通过一次性许可(kě)取得私有(yǒu)数据授权,从而完全独立运行大模型及衍生AIGC产品是最优选。此外,即使取得相应授权可(kě)以利用(yòng)私有(yǒu)数据进行模型训练与开发,但在使用(yòng)中应注意保护数据所涉及的商(shāng)业秘密和个人信息,此类私有(yǒu)数据授权往往仅是授权整體(tǐ)数据权益,而并未对单一数据涉及的商(shāng)业秘密、个人隐私等内容获得逐一授权。此外,按照一般约定,若大模型微调使用(yòng)私有(yǒu)数据并允许开源发布。而若大模型许可(kě)协议明确要求开源义務(wù),开发者则应通过封装代码、管道通信等技术方式设计避免不可(kě)开源发布私有(yǒu)数据之义務(wù)与大模型的传染性开源协议的冲突,以免对开源协议或私有(yǒu)数据授权协议的违约。
(3)遵照通用(yòng)许可(kě)协议
与上篇建议代码的授权合规路径相同,大模型同样是在信息技术社區(qū)进行开放共享。但在修改预训练大模型时,则需要特别注意遵守通用(yòng)版本大模型的许可(kě)协议,尤其是大模型规模庞大,代码、算法繁多(duō),将可(kě)能(néng)涉及多(duō)个不同的许可(kě)协议。对于Demo或衍生模型开发者,在增减和修改预训练大模型程序和参数时应注意避让不允许修改的代码、算法部分(fēn),部分(fēn)允许修改的代码、算法可(kě)能(néng)要求在新(xīn)模型的许可(kě)协议中注明修改内容,也应一并遵循。
此外,怎样识别和注意大模型是否可(kě)修改/改编、是否可(kě)商(shāng)用(yòng)、是否传染与强制开源、是否存在非竞争条款等,以及相对应怎样保证授权路径合规,筆(bǐ)者在上篇“代码合规"部分(fēn)已有(yǒu)详细论述,此处亦不再展开。
二、AIGC产品的运行合规
1、AIGC产品运行的风险
(1)前端开发/SaaS(软件即服務(wù))风险
经过前端开发,用(yòng)户可(kě)以直接使用(yòng)程序或软件获得相关服務(wù),开发过程中如使用(yòng)第三方代码,受许可(kě)协议约束,该第三方代码许可(kě)协议可(kě)能(néng)与训练代码和大模型的开源协议产生冲突,并可(kě)能(néng)限制后续修改和商(shāng)用(yòng)。
(2)责任主體(tǐ)风险
AIGC产品提供者是2023年8月15日生效的《生成式人工智能(néng)服務(wù)管理(lǐ)暂行办法》(以下简称“《办法》")规定的信息内容责任主體(tǐ),负有(yǒu)网络信息内容生产者责任和网络信息安全义務(wù),需严格遵守《办法》及《互联网信息服務(wù)深度合成管理(lǐ)规定》对个人信息处理(lǐ)、生成内容标识、投诉举报渠道等服務(wù)规范的要求。
(3)上線(xiàn)备案风险
根据《办法》第十七条,境内AIGC产品如向社会公众开放且“具有(yǒu)舆论属性或社会动员能(néng)力",应在行政机关进行算法备案。结合《具有(yǒu)舆论属性或社会动员能(néng)力的互联网信息服務(wù)安全评估规定》及目前的备案实践来看,绝大多(duō)数AIGC产品都负有(yǒu)备案义務(wù)。在网信办于2023年6月及8月公布的两批次备案信息共计151个算法中,不乏在線(xiàn)智能(néng)客服、商(shāng)品三维图像合成、文(wén)本转语音等较為(wèi)功能(néng)较為(wèi)单一的算法。
(4)用(yòng)户参与风险
用(yòng)户输入内容可(kě)能(néng)存在知识产权侵权、涉密、违反法律法规等情形。如果该AIGC产品同步将用(yòng)户输入内容纳入数据集或模型改进,则相关侵权内容可(kě)能(néng)对既有(yǒu)的合规数据集造成“污染",增加数据集侵权风险和违法风险。
(5)数据安全风险
使用(yòng)AIGC产品产生的用(yòng)户数据的使用(yòng)、存储、处理(lǐ)和分(fēn)级管理(lǐ)应符合数据合规要求。尤其值得注意的是,境内第三方主體(tǐ)在其提供的AIGC产品嵌入境外大模型API的,涉及用(yòng)户数据及个人信息向境外传输,可(kě)能(néng)触及《数据安全法》《个人信息保护法》等跨境数据合规要求。
2、AIGC产品运行的合规路径
(1)冲突避免
正如筆(bǐ)者上篇详细论证怎样采取技术手段隔绝传染性,开发者在前端开发中首先应注意第三方许可(kě)协议是否与开源代码和模型的许可(kě)协议冲突,同时注意协议是否限制修改和商(shāng)用(yòng),发现相关冲突时,采取封装代码、管道通信等技术方式进行隔离,从而避免违约风险。
(2)履行行政义務(wù)
开发者应按照《办法》履行合规要求,与注册其服務(wù)的使用(yòng)者签订服務(wù)协议,明确双方权利义務(wù)。并遵守个人信息处理(lǐ)、生成内容标识、投诉举报、信息删除机制和算法备案等制度要求,就人工智能(néng)服務(wù)生成内容设置水印等显著标识、设立面向公众的知识产权侵权投诉渠道和违法内容投诉渠道、提前在行政机关进行算法备案。
而若AIGC产品的底层使用(yòng)的是境外大模型,优先考虑将境外大模型本地化、或在境内服務(wù)器进行私有(yǒu)云部署,强化客户数据安全,避免数据出境带来的申报监管成本。若需采用(yòng)API嵌入,则应审慎评估向用(yòng)户开放的功能(néng)可(kě)能(néng)收集的数据范围、敏感度等,根据《数据安全法》《数据出境安全评估办法》等承担申报评估、与外方签署标准合同等合规义務(wù)。
(3)防范污染
从最大程度规避风险的角度来看,建议AIGC产品尽量不要存储用(yòng)户输入内容进入训练数据集,以规避污染风险。2023年5月5日,Open AI表示,Open AI已有(yǒu)一段时间没有(yǒu)拿(ná)付费客户的数据训练其GPT等大语言模型。近期行业内也已有(yǒu)以小(xiǎo)體(tǐ)量数据进行模型训练的尝试。2023年6月,微软已开始使用(yòng)规模更小(xiǎo)的数据训练模型,尽管在数据集和模型大小(xiǎo)方面可(kě)能(néng)会比竞品模型小(xiǎo)几个数量级,但高质量的小(xiǎo)数据也能(néng)让模型具备良好的性能(néng)。
退一步讲,如商(shāng)业考虑确有(yǒu)使用(yòng)用(yòng)户输入内容进行优化训练的需要,则建议将用(yòng)户输入内容隔离于既有(yǒu)数据集单独存储,并对用(yòng)户输入内容进行一定“清洗"。同时,在用(yòng)户协议中明确其输入内容将用(yòng)于AIGC产品及其大模型的优化,并在功能(néng)界面进行明显提示,要求用(yòng)户就其输入内容及行為(wèi)的合法合规性自负责任。开发者可(kě)根据产品性质借鉴Open AI模式,在MaaS、SaaS和API采用(yòng)不同的信息收集和退出选项。例如对于通过API交互方式,适用(yòng)“选择-进入(opt-in)"的模式,只有(yǒu)在用(yòng)户明确同意的情况下,才利用(yòng)API交互内容进行相关服務(wù)的优化和升级;对于通过非API方式交互例如ChatGPT,则适用(yòng)“选择-退出(opt-out)"的模式,默认使用(yòng)用(yòng)户输入内容进行模型训练和优化,若用(yòng)户不同意则不再使用(yòng)。[2]
三、AIGC产品生成内容的运行合规
1、AIGC生成内容的风险
(1)用(yòng)户输入情况不可(kě)控
用(yòng)户可(kě)能(néng)输入违反法律法规和公序良俗、涉及仇恨、暴力类命令,或要求生成某一公众人物(wù)的形象、声音等,这些输入可(kě)能(néng)导致生成内容存在违法、侵犯人格权等情形。
最新(xīn)的动态表明,部分(fēn)AIGC产品已具备编辑能(néng)力,即根据用(yòng)户的命令直接编辑用(yòng)户输入的图像、歌曲等,这可(kě)能(néng)侵犯原作品著作权人的修改权等权利。以图像為(wèi)例,如对图像中特定元素进行局部修改,例如对照片中的人脸进行AI换脸、修改照片中的某品牌名称為(wèi)讽刺贬低性名称等,也可(kě)能(néng)涉嫌侵犯自然人肖像权及法人名誉权、构成不正当竞争等。
(2)生成内容的著作权侵权争议
AIGC生成内容是否构成著作权法意义上的“作品",能(néng)否作為(wèi)作品获得著作权法保护,仍存在争议,此前筆(bǐ)者在《ChatGPT的著作权规制》一文(wén)认為(wèi),生成内容可(kě)能(néng)构成对既有(yǒu)著作权作品的侵权。而AIGC产品提供者是生成内容的提供方,较难通过技术中立抗辩不需承担责任。详细论证可(kě)参考筆(bǐ)者此前文(wén)章。
2、AIGC产品生成内容的合规路径
(1)算法优化
AIGC产品算法的优化应伴随着产品的始末,怎样实现AIGC产品真正的“独立创作"将是产品合规的最终目标。保证数据集无权利瑕疵、合理(lǐ)使用(yòng)数据集目前仍可(kě)能(néng)存在许多(duō)障碍,而实现算法优化,尽可(kě)能(néng)增强AIGC生成内容的转化性,降低因生成内容与数据内容相似而引发的纠纷,是更加便捷的路径。
(2)过滤系统建立
正如网络平台不断升级的过滤系统,应当针对用(yòng)户输入的命令设置关键词过滤并进行关联记忆,禁止大模型对部分(fēn)关键词进行读取和回应,以免输出暴力、仇恨内容,且确保被过滤的命令不会回写入数据集。而对于按照用(yòng)户指令编辑修改用(yòng)户输入内容,仍应向用(yòng)户强化提示,要求用(yòng)户善尽义務(wù),对其输入和输出内容承担法律责任。
此外,对于涉及人脸、肖像、语音、音色合成等人格要素的AIGC产出内容,在数据来源和内容产出进行“首尾双控",既确保使用(yòng)人格元素获取充分(fēn)授权,又(yòu)要注意在输出涉及人格元素的AIGC内容时保持积极正向,以更严格的标准规避因用(yòng)户输入负面指令引发的名誉权等人格权纠纷。而对于未获得人格元素授权的公众人物(wù),AIGC产品应拒绝回应用(yòng)户输入的指令。
(3)用(yòng)户协议优化
对于部分(fēn)产品而言,可(kě)以考虑在用(yòng)户协议中采取“生成内容知识产权归属用(yòng)户,平台取得永久授权"的模式,以最大程度降低因生成内容侵权带来的纠纷(具體(tǐ)讨论可(kě)参见筆(bǐ)者《以全球主流AIGC产品用(yòng)户协议為(wèi)例梳理(lǐ)AIGC生成内容的权利归属与使用(yòng)限制》)。同时设置免责条款:(1)排除对生成内容合规性作任何保证;(2)要求用(yòng)户就生成内容承担全部法律责任。开发者应在产品功能(néng)界面进行进一步提示,充分(fēn)履行告知义務(wù)。但如前所述,由于《办法》已明确由AIGC产品提供者承担网络信息内容生产者责任,仅凭免责条款可(kě)能(néng)难以完全免除AIGC产品提供者的责任,仅能(néng)起到尽可(kě)能(néng)靠近技术中立抗辩的功能(néng),仍需AIGC产品提供者采取前述其他(tā)合规举措,方可(kě)将AIGC生成内容的侵权风险降到最低。
四、结语
人工智能(néng)生成服務(wù)在全球范围内面临机遇和挑战,AIGC全流程合规有(yǒu)助于人工智能(néng)产业的蓬勃发展,也有(yǒu)助于内容和知识领域的向好前行。《办法》的施行是对人工智能(néng)服務(wù)进行法律规制的前序。筆(bǐ)者认為(wèi),开发者应重视AIGC产品的全流程合规,确保数据和代码的授权合规,重视大模型和产品的运行合规,由此促进人工智能(néng)生成内容对社会的增益,维护社会的整體(tǐ)利益和可(kě)持续性发展。
[注]
[1] Shijie Wu, et al. (2023). BloombergGPT: A Large Language Model for Finance, p6. https://arxiv.org/abs/2303.17564
[2] https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance