我的位置: 上观号 > 上海市法学会 > 文章详情

施小雪|重塑复制权:生成式人工智能数据训练的合法化路径

转自:上海市法学会 2024-11-22 08:49:48

脱离了适宜复制权生存的原始环境,而对复制权进行宽泛的权利扩张,是导致生成式人工智能数据训练遭遇法律障碍的根本原因。以增进公众福祉和产业发展为考量,合法化数据训练中复制作品的行为,解决之道在于重塑复制权,而不是重塑合理使用。在权利法的视角下,重塑复制权应对复制权的功能进行重新定位,以“固定性+传播性”的构成要件定义侵犯复制权的行为。在技术发展的早期阶段,重塑复制权后的合法化路径还应配合著作权注意义务的施加,促进平台不断改进用户指令端和内容输出端的技术控制和内容生成能力。在指令端及输出端符合著作权注意义务的阶段性场景要求,以及获取作品的行为没有违背权利人的意愿时,数据训练中对作品的复制可视为不具备“传播性”而不构成对复制权的侵犯。

生成式人工智能的开发及应用正面临着巨大的著作权侵权风险,全球知名人工智能公司等接连遭遇著作权侵权诉讼。相关争议主要分为在生成式人工智能的数据训练中,对享有著作权的作品进行复制以进行深度学习是否侵犯复制权,以及生成式人工智能生成内容是否侵犯复制权、改编权、信息网络传播权等著作财产权。对于后一争议,由于生成与原作品实质性相似的内容并非生成式人工智能产业的发展方向,创造新的原创内容才是技术发展的终极目标,因此现阶段生成式人工智能在内容输出端的著作权侵权风险应属技术发展不成熟期的过程性问题,在现有的著作权法框架下,无法脱离“接触+实质性相似”侵权判定规则,实质上并不属于技术引发的新问题,更多是涉及现阶段人工智能企业的著作权注意义务应当如何恰当界定的问题。而数据训练阶段给人工智能“投喂”作品的行为,则颠覆了我们过往对于复制行为的认知,这一过程不仅关乎输出端的内容呈现,更关乎产业的整体发展,需要慎重对待。
因此,著作权法当前亟待解决的问题是,如何为生成式人工智能的数据训练找到一条切实可行的合法路径,这是人工智能技术发展的核心关切。围绕这一主题,现有研究大体存在五类观点:一是采取折衷法,认为人工智能输入端的复制行为虽然落入著作权的规制范畴,但为平衡人工智能产业发展与著作权的保护,可在数据训练中引入法定许可,并确定著作权人合理的报酬标准,或者是增设补偿金制度。二是采取相对宽容态度,主张变革现有著作权法中的合理使用制度,将生成式人工智能数据训练阶段的机器学习纳入著作权合理使用范畴。三是采取完全宽容态度,融入促进文化艺术繁荣、促进产业发展等方面的价值考量,主张在修改著作权法时,将生成式人工智能数据训练阶段,以及内容输出阶段对他人作品的复制、改编、传播等行为均纳入著作权的合理使用范畴。四是认为不一定需要合理使用解决危机,因为非表达型的机器学习可能是不侵权的,表达型的机器学习会危及原作者的市场。表达型的机器学习推定落入专有权的范围,但其中的大众表达型学习应设定合理使用的责任豁免,并允许作者权利保留,其中为科研活动的学习也应认定为合理使用。也有研究提出非表达型的机器学习属于非作品性使用,其不会削弱对著作权人的激励,因此此种复制不应纳入著作权保护范围。复制的概念已经过度泛化,需要对其进行限缩,这是比设置合理使用的更优选择。五是提出绝对否定侵权的观点,认为在当前的著作权法框架下,数据训练阶段的复制行为没有侵犯著作权,未经授权使用作品进行数据训练是合法行为。原因是生成式人工智能的深度学习,是对他人作品思想、风格层面的学习,学习的对象是不受著作权法保护的“思想”而非“表达”,类似自然人阅读之后思考、吸收、再创作的过程,因此复制行为并未落入著作权专有权利的规制范畴,合理使用规则的豁免也无从谈起。
现有研究大体提出了两种解决方案:一是通过合理使用等豁免规则予以合法化,此方面的研究成果已经比较丰富。二是通过解释、界定复制权的办法予以合法化,此种方案目前尚属于少数意见。本文主张采取第二种方案,但需要对复制权进行根本性的变革,并构建配套规则以适应技术发展的阶段性需求。现行著作权法对复制权采取“宽进”的结构,导致复制权多次经历类似今日的尴尬。从录音录像设备的私人应用,再到网络环境下临时复制的出现,以及搜索引擎、数字图书馆建设、云计算技术所带来的批量化缓存、内容片段呈现、海量内容存储等作品固定方式及传播形态的变化,每一次技术的变迁,都会引发对于复制权的大讨论,而每一次讨论都围绕着如何界定复制权的效力范围而展开,也早已引发了是否应当废除、重构复制权的思考。如今生成式人工智能数据训练所引发的侵权争议,实质依然是这一老问题在新场景下的“换装式”呈现。本文认为,在关涉侵权问题时,权利法的思维应是基本的逻辑起点,即首先需要对什么是应当受到保护的权利进行精准定位,合理界定权利的效力范围。在技术变迁中,复制行为的方式和目的始终都在发生变化,复制权的效力范围也需要遵循技术的发展脉络而不断调整。相较于频繁对合理使用进行缝缝补补,重塑复制权是走出当前困局的更优解。在已有研究的基础上,本文选择权利法的逻辑演绎路径,结合生成式人工智能的特殊性,论证为何需要重塑复制权、如何重塑复制权,以及在当前人工智能技术的发展阶段,重塑复制权需要怎样的配套规则实现阶段性过渡、面临何种挑战及如何应对挑战等衍生问题,尝试揭示隐藏在问题背后的深层法律原因和现实动因,提供著作权法视角下,合法化生成式人工智能数据训练的体系性思路,以为立法、司法及产业实践提供学理支撑。
一、追根溯源:复制权的扩张、负面影响与合理定位
技术是快速变化的,但法律问题却基本不变。就著作权而言,几乎在每一次新技术的冲击下,复制权都处于争议的核心,生成式人工智能的开发也同样如此。这源于在利益博弈下,复制权的效力范围跟随着技术的广泛运用同步扩张,脱离了原有诞生土壤的复制权,在利益的不断“圈地”下,遭遇了与新技术发展的不恰。将复制权放入历史的视野下进行审视,有助于拨开迷雾、厘清思路。

(一)
复制权的扩张及负面影响

1.复制权初始功能的扩张




考察著作权的早期历史,不难发现复制权意识的萌芽,源自人们意识到复制的特权可以成为副本交换或者商业收费的基础。出版商们为了垄断图书印刷和销售市场,倾向于不断地游说立法以争取出版特许权。几百年来,印刷出版是大量销售作品获取利润的唯一可行方式,所以各国的著作权法和国际公约都无一例外地对复制权给予了高度重视。普通法系国家的著作权法以财产价值观为基础,大陆法系国家的著作权法虽然增加了人格价值观的理论基础,但其只是将单一的财产权丰富为具有双重内容的权利,作者控制作品复制的权利依然是其中关键的财产性权利。追溯复制权萌芽及诞生的过程,可以发现复制权之所以诞生并成为一项独立的权利,缘于在仅出版商有能力进行规模化印刷的社会环境下,著作权更多是一种出版经济学。复制权诞生的初衷是防止出版商未经许可的印刷行为。后来作者的复制权得以确定,也是为了同样的商业目的。在当时的市场环境中,规模化复制的必然目的就是市场传播,所以复制行为具有独立的经济意义,控制复制就是一种便利的防止侵权的机制。
随着技术的不断发展,复制行为的表现形态逐渐多样,从模拟技术到数字信息技术,均以惊人的速度颠覆了作品的复制方式。复制成本的大幅度下降使得大规模用户的复制侵权风险成为著作权人非常关注的问题。受影响较大的是原有行业的领导者,他们当中的大多数人希望设计新的著作权规则,来保持他们在市场上的主导地位。在作者中心主义理念下,1967年修订的《伯尔尼公约》第9条之一规定,著作权人享有批准以任何方式和采取任何形式复制这些作品的专有权。此条规定被认为复制权所控制的复制,足以包括所有的复制方法,以及其他任何已知和未知的方式。《与贸易有关的知识产权协议》中虽然没有明确界定复制权的概念,但在第一部分总则和基本原则篇明确了成员国不能背离在《伯尔尼公约》项下承担的现有义务。《世界知识产权组织版权条约》第1条则将互联网环境中的复制行为规定为,在电子媒体中以数字形式存储受保护的作品,构成《伯尔尼公约》第9条所规定的复制。从国际公约的表述来看,复制权的概念中均未明确受规制的复制行为目的为何,只是明确了复制行为的形式包括任何形式。在脱离了印刷时代的产业环境后,复制权所控制的复制行为实质已经不再与传播相关,所规制的主体也不再局限于出版商,任何主体以传播为目的的复制,以及不以传播为目的的复制,都落入了复制权的控制范围。复制权成为一种非常宽泛的权利,其效力范围得到了极大扩张。
2.复制权扩张的负面影响




复制权的扩张带来不少新问题,问题之一就是影响公众的福祉。在数字环境下,复制与作品传播间不可分割的关联减弱。在数字环境中,复制是一种广泛且必要的存在,浏览网页、缓存、链接、下载、访问信息以及在线服务等操作,都涉及复制。如果将这些形式的复制都视为对复制权的侵犯,几乎公众在数字环境下的每项行为都会触发复制权侵权。
复制权扩张引发的另一个问题是,推高了新兴产业发展的成本。在复制权诞生之初,文化生产在西方社会是经济过程中的一个重要组成部分,维持国家的繁荣与强大要求对作者及著作权产业予以重视。但在不断出现新的生产力背景下,如果冻结市场、弱化竞争、继续维持现状甚至形成新的垄断,国家将会面临维持竞争优势的挑战。国家的经济是流动状态的,这种流动状态是不断出现的各种生产力相互影响和竞争造成的。此时,国家追求什么样的政策,并将其作为法律制订的指导,会成为下一个经济发展阶段成功与失败的分水岭。
为了消解权利范围规定过宽所引发的负面影响,在各方利益的权衡之下,《伯尔尼公约》在第9条规定,公约联盟成员国的法律有权允许在某些特殊情况下复制上述作品,只要这种复制不致损害作品的正常使用也不致无故侵害作者的合法利益。该条被认为是对复制权的一种合理使用限制。于是,何种情形下的复制行为应当落入合理使用的范围,从而得到侵权的豁免,便成为解决复制权效力范围过宽的一般路径。但这也引发另外一个法律难题,那就是合理使用规则的内容也开始不断扩张,并逐渐变得缺乏逻辑性且越来越难以预测。当合理使用规则开始被频繁动用,并成为著作权法领域中最为疑难复杂的问题时,对合理使用的质疑及反思也随之开始。
质疑合理使用的理由主要为:一是对合理使用概括困难,立法难以穷尽全部情形,在法律的明确规定之外,其他情形下合理使用的考量因素均依赖法院裁量。不同法官对合理使用规则的认识存在分歧,不受统一原则的支配,更多源于对各个事实类型的直觉反应,加剧了合理使用的不确定性。在索尼案中,多数派虽然支持纯粹为个人欣赏而复制电影、电视直播节目等可以构成合理使用,但是这一结论的得出非常依赖消费者很少跳过广告或长期保存电影录像这一事实。因为多数派认为这一事实不会减少原告作品的广告收入,从而对原告作品的潜在市场或价值没有造成显著损害。如果案件中缺乏这一偶然性的事实,很难预测当年的索尼案是否还会作出同样的判决。二是随着作品使用新方式的不断出现,合理使用既有理论对于评估变革性的使用非常有效,但不适合评估非变革性的个人使用复制。

(二)
复制权功能的合理定位

解决问题的根源在于权利本身。在权利法的视角下,当合理使用变得越来越庞杂和难以决断时,其实问题并不是出在什么是合理使用,而是出在什么是应当受到保护的权利。合理使用是专有权利的衍生概念,而非原始概念,起决定性作用的,应该是权利本身。当合理使用本身变得“怪异、具有偶然性”时,如果继续调整合理使用,不过是在现有的“补丁”之上再次增设“补丁”。面对“补丁”重重的制度,其实应当反思现有著作权的权利设计是否垄断了太多的公共利益。从私人复制、系统缓存到某平台数字图书馆案、云计算存储案,乃至生成式人工智能数据训练案,需要解决的问题本质都是一样的,就是进一步明晰其效力范围,从根本上解决因技术变迁而持续带来的复制难题。
复制权是时代的产物,其效力范围的合理划定无法脱离促使其诞生的社会背景。复制权的诞生初衷是控制出版商的“传播”利益,且传播方式为有形的物理传播。而数字技术以及生成式人工智能技术之所以会带来复制难题,是因为新环境下的复制行为改变了复制方式,复制并非局限于有形物理载体的复制件,也并不必然会带来“传播”,或者说能够产生的“传播”效益在维权成本面前不值一提,以及产生的“传播”效益并不会对权利人原有的市场造成实质威胁等,印刷时代复制与传播间那种不可分割的联系没有了。在生成式人工智能的数据训练中,复制作品的方式包括数据收集、数据预处理、数据挖掘阶段的临时复制。当前也发展出了可在云服务器上进行的数据训练,这些副本被运行完之后就不需要再被人工智能系统保留。这些形式的复制不是为了传播,而是为了创造新内容。复制权生存的环境已经发生巨大变化,但如果不问复制的形式和目的,而将复制权的效力范围从印刷出版扩张到一切形式的复制,结果就只能通过不断增设权利的例外,为新环境下的利益平衡找到出路。初始诞生环境决定了复制权适宜具有的功能,当环境改变时,如果盲目扩张复制权而忽略其适宜生存的环境,只会导致扩张后的权利体系无法与新环境实现自洽。面对新技术下复制形式和目的的不断丰富,应当围绕复制权的初始诞生环境确定如何对复制权进行扩张解释。
回溯复制权的初始功能,其意义就在于控制线下作品的有形物理传播,其与作品的传播具有不可分割性,所以复制权从诞生之初就是一种具有依赖性的上游权利。因为传播直接对应着市场,市场应是复制权诞生的重要现实基础,而传播则是作品获取市场收益的重要表现形式。无论什么技术环境中的复制,只要其是作品传播的开始,那么控制这种复制,就能实现对相关市场的控制。所以必须明晰的一点是,复制权所划定的效力范围实际上是要控制作品的传播市场。只有行为人构成向公众提供作品时,著作权法才有介入的必要和实际意义。而对作为与市场行为相对应的非市场复制等行为,著作权法其实并没有回应的必要。如果需要著作权法进行回应,著作权人也应当证明复制行为所造成的损失,但实际情况是,著作权人自身也很难证明究竟是否会有实际损失,以及损失如何测算。
在生成式人工智能技术下,需要根据技术的发展目的,重点考量复制作品是否有损作者的经济利益。对于作者而言,被用于数据训练的作品如果处于“黑箱”中并未传出,理论上并不影响原作者的既有市场。传统的理念认为,作者获得作品商业性利用的许可使用费是一项基本的权利,但这种费用实质是将利润从技术的开发者部分转移到了作者,而这种利润转移并没有清晰的测算依据且难以执行,并会降低人工智能产业的大模型质量,影响新生产力乃至整个社会的经济运行效率。而如果将数据训练放置于生成式人工智能创作传播内容的整体过程中考量,新生产力会带来新的市场。生成式人工智能在提升人类创作作品的效率之时,可能也会面临创作同质化的危机。所以如果想使机器生成的内容具有市场价值,还需要使用者继续叠加人类的劳动,为机器创作增添稀缺的“独创性”。同时作者本身也可以借助生成式人工智能提升创作的效率。究竟是受损还是获益,难以有确凿的回答。新的生产动能正在路上,所谓对于原作者市场的潜在威胁这种不确定性的预测,最好的回应办法就是不回应。
除了市场的考量,也应重新定位复制权所控制的复制形式。复制的不可避免性,也决定了复制不应该再成为衡量侵权的恰当方式,例如,对于数字环境下的临时复制,坚持以技术过程不具有“固定性”为由,将临时复制、系统缓存合法化,否定了临时复制、系统缓存落入复制权的控制范畴,在对复制权所控制的复制形式进行合理界定的前提下,合理平衡权利人和公众的利益,也为新技术的发展开辟了空间,防止复制权在数字技术之下扩张为“专有阅读权”。2001年欧洲议会和理事会发布《信息社会著作权与相关权利指令》,在其中的第5条规定了临时复制的侵权豁免,明确当发生于数字环境传输中的复制行为是“暂时的”“在技术过程中必然发生的”,且“不具有独立的经济价值”时,应当豁免构成复制权侵权。巴西著作权法第30(1)条也明确规定,如果复制是临时的,且复制的唯一目的是使作品、录音制品或表演可以通过电子媒介的方式被感知,或者复制是短暂的或偶然的,且复制是在获得著作权人的适当授权后使用作品的过程中所为,则不应适用复制专有权。法国知识产权法典在第L.122-5(6)条规定,作者不得禁止作品发表后的下列复制:“过渡性或附属性的临时复制,该复制必须是某个技术方案完整和基本的组成部分,该复制仅在于允许作品的合法使用或借助中介网络在第三人之间的传播;但该临时复制仅适用于软件和数据库以外的作品,且自身不得具有经济价值。”上述比较法上的立法例对于复制形式的规定,也同样适用于生成式人工智能场景下数据训练中的临时复制,因为其作为不可避免的技术组成部分,同样缺乏独立的经济价值。
脱离了现实土壤而进行权利效力范围的划定,终会不断衍生出新的问题。权利功能的合理定位无法脱离适宜权利生存的环境。上文对于市场“传播性”、复制行为“固定性”的分析,均围绕着复制权的初始诞生功能展开。以固定性、传播性作为复制权的构成要件正是对复制权初始功能的提炼,因而本文主张以“固定性+传播性”的构成要件重新定位复制权的功能,也就是复制权所控制的复制行为,应当同时具备“固定性”及“传播性”。面对突破性、颠覆性的技术变革,所引发的问题可能并非源于权利限制的不足,而只是因为我们并未从根本上理解权利。所以,真正重要的是正确看待权利、回归权利法的思维。
二、现实路径:回归复制权本源及工具论视角
延续上文论证,当转换到生成式人工智能场景时,面临两种现实路径:一是修改著作权法的立法论路径,二是通过司法在个案中进行裁判的解释论路径。本文主张,现阶段通过司法在个案中进行解释是更为妥当的办法。生成式人工智能还处于发展中,数据训练中复制、存储作品的方式或许还会更新迭代。同时,生成式人工智能技术当前还很不成熟,还需要配套性规则对接复制权重塑后的侵权判断标准,并不适合立法立即作出回应。更重要的是,人工智能是各国抢占的技术高地,相关纠纷中可能蕴含着政治博弈、价值冲突、利益分配等复杂因素,但由于司法具有将一般问题转化为个别问题、把价值问题转化为技术问题等方法,这些可能给国家或社会带来巨大冲击的矛盾最终可被审判所中和、吸收或者消解。因此本文选择解释论的路径,依据此种路径阐述重塑复制权下如何合法化生成式人工智能数据训练中的复制行为。

(一)
回归本源的解释论视角

依照权利法的解释学逻辑,判断某项行为是否侵犯某项著作财产权的思路包括四步:第一步,划定特定权利的保护边界,明确落入该权利控制范围的侵权行为构成要件;第二步,判断特定行为是否符合上述构成要件;第三步,完全契合上述构成要件的行为落入该权利的保护范围,此时视为外观侵权行为;第四步,对于外观侵权行为,则需进一步判断是否符合合理使用、法定许可等侵权豁免情形,如符合,也应属不侵权行为。在第三步中,本就欠缺或者不具备构成要件的行为,从根本上属于实质不侵权行为,不需要适用最后一步中的侵权豁免规则。
依据上述逻辑,判断生成式人工智能数据训练中的复制行为是否侵犯复制权,首先需要明确复制权的保护边界。依上文结论,以“固定性+传播性”的构成要件定位复制权的效力范围,是对复制权保护边界的回应。接下来的重点是第二步及第三步的判断。对于“固定性”的理解,应用临时复制等新模态进行的数据训练,并未落入复制权的控制范围,不再需要进行“传播性”要件的判断。而对于符合“固定性”要件的复制行为,需要进一步判断其是否具备“传播性”要件。
首先,“传播性”要求被用于数据训练的内容具有著作权。本文认为,在此种情形下,是否属于“传播”原作品,在当前阶段不能仅仅依靠“思想—表达”二分法进行实质性相似的判断。因为生成式人工智能当前还处于早期发展阶段,内容生成算法的设计、用户侵权指令及侵权内容生成的识别机制及反馈机制还存在一些固有缺陷。所以如果简单以生成内容“实质性相似”从而具有“传播性”来界定数据训练中复制作品的行为,可能会得出复制行为符合“传播性”要件,从而侵犯复制权的直观结论。在当前,如果需要对数据训练中复制作品的行为进行合法化,还需要一种阶段性的过渡规则,配合复制权重塑后的侵权判定标准,以对应当前生成式人工智能平台的现有技术水平,以准确判断其过错。如同在互联网产业发展的初期,电商平台难以检测海量侵权信息,于是为其设置避风港规则并配合红旗规则一样,这种阶段性规则的功能着眼于在过程中维护权利保护和产业发展的动态平衡。当技术发展至更高阶时,平台识别侵权信息等成本降低,仅以“通知”后未“删除”侵权信息作为判定平台具有过错的标准,已经不再匹配高阶技术阶段平台自我管理的能力。为处于技术早期阶段的生成式人工智能配置类似规则,也同样体现了这种权益考量。这种阶段性的规则,类似于“避风港”的安全港机制,但又不完全等同。因为生成式人工智能平台兼具服务和内容提供者的双重身份,不同场景下适用的是不同身份,与“避风港”只适用于服务提供者的限定并不吻合。因此,阶段性的规则实质需要生成式人工智能平台在特定场景下尽到采取必要措施的注意义务,以管控著作权侵权等风险。
结合生成式人工智能的技术原理和使用场景,生成式人工智能会根据原始数据训练集提供的素材生成内容,也会吸纳用户输入的指令,自我生成新的数据训练集,本文称为指令数据集。因此识别风险应从用户输入指令阶段开始,应采取有效措施教育、屏蔽、改变用户发出的引诱著作权侵权指令,防止某些内容虽未被用于数据训练,但仍可能会通过用户指令被纳入语料库。在输出端进行侵权内容输出风险的消解,既包括识别是否传播了原始数据集的作品内容,也包括识别出所生成的内容是否通过指令数据集生成并侵犯了在先权利人的著作权等。同时,还需要借鉴互联网产业的治理经验,在特定场景下配套类似“通知—删除”机制。接到合格有效通知后,平台应当在合理期限内采取必要措施,避免侵权内容再次生成。如果平台在用户指令端和输出端均采取了合理有效的技术措施,识别上述侵权指令及控制高风险侵权内容的产出及传播,同时针对非故意的“漏网之鱼”,在接到合格有效通知后,也及时控制了侵权内容的再次生成和传播,那么数据训练阶段复制作品的行为就应视为不具备“传播性”。此时数据训练阶段的复制行为因不具备“固定性+传播性”的构成要件,并未落入重塑后的复制权的控制范围。这种责任分担机制有利于为技术的开发者提供明确且有条件的免责预期,引导其主动采取必要措施,防范法律风险,促进产业发展。
在我国及其他国家当前正在审理的数据训练案中,争议焦点大多涉及数据训练中复制作品的行为是否侵犯著作权人的复制权,生成的内容是否侵犯著作权人的改编权、信息网络传播权等,也涉及如果构成侵权,停止侵权是否包含删除训练库中未经许可的作品等。依据上文阐述,首先需要排除原告作品中公有领域或通用的表达。对于个性化的表达,则需要比对生成物与其是否构成实质性相似。在构成实质性相似的前提下,再依照平台的现有技术水平判定其是否具有“传播”的过错。在平台以内容提供者的身份开展业务时,第一步是考察被告在指令端和输出端是否尽到合理地防范侵权的义务。如果设置了相对合理的算法和提示词标签等,可在指令端提醒用户指令不被接受,或提醒用户变更指令,或当用户的指令可能会诱导侵权时,输出端做到了拒绝输出,或者不侵权式输出,或仅输出片段等,则可以进入第二步的考察。如果平台并未采取上述措施,可视为平台未尽到防范侵权的注意义务,构成著作权侵权。在当前我国已经出现的判定生成式人工智能著作权侵权的案件中,平台未能够实现拒绝输出或不侵权式输出,实质就是平台没有在指令端和输出端采取必要措施防范侵权风险等,无法证明其不具有过错。而对于停止侵权是否包含删除训练库中未经许可的作品这一内容,本文主张停止侵权不宜包含删除数据训练集中作品的内容,除非这一作品权利人并未公开发表。因生成式人工智能的数据训练是一个独立而封闭的系统,在做好技术控制的前提下,并不会对权利人造成实质损害。同时,数据训练意义重大,为防止删除数据训练中的作品对公众获取内容产生不良影响,应重点关注结果输出对权利人造成的实质损害,围绕结果输出的优化与改进,确定停止侵权的内容。而如果平台尽到了上述义务,此时需要进行第二步,继续考察平台在知晓生成内容侵权后,有无及时优化算法、采取清理措施防止相关内容继续生成等,以补强其并无“传播性”目的的证明。在尽到上述义务的情形下,平台的数据训练和内容输出可进入安全港,不构成著作权侵权。
在涉某网盘侵害作品信息网络传播权纠纷案中,我国法院已经采纳了类似观点。法院认为用户在网盘中存储作品的行为具有独立性,不能将特定文件的存储等同于特定文件的传播行为,单纯的作品存储行为不构成对信息网络传播权的侵害。而针对网盘是否需要删除涉案存储文件,法院认为在网盘接到的通知并不能有效定位侵权行为的前提下,实质上是要求网盘对所有文件进行全面排查,不合理加重了网盘的负担,如果网盘删除服务器上的涉案存储文件,会导致所有存储这一文件的网盘用户的存储空间中的这一文件被删除,会损害未实施侵权行为的网盘用户的合法权益,因此并未支持从服务器上删除涉案文件的诉求。在这一案件中,我国法院实质认可了没有传播目的的复制行为具有合法性的结论,也明确了网盘、云服务提供者合理注意义务的标准,可资借鉴。
综上,应在一定的场景中分析复制作品的行为是否具有“传播性”,并非所有的复制行为都具有“传播性”。在作品缺乏传播目的的前提下,应当认定行为本身并非权利的控制范围,这样的认定原则能从根本上解决因技术发展而引发的复制尴尬难题。在著作权法的视野下,数据训练阶段复制行为的合法,还应符合数据来源合法的要求。数据来源合法是指所复制作品的获取方式没有违背著作权人公开作品的意愿,也未破坏权利人对作品所设置的技术保护措施等。而输出端是否侵犯了改编权、汇编权、信息网络传播权等,也应当结合平台在特定业务场景下的不同身份进行综合判断。在符合著作权注意义务标准后,应当允许生成式人工智能平台进入安全港。

(二)
面向未来的工具论视角

面向未来,运用工具论的视角,能够进一步印证上文结论符合技术的发展趋势。生成式人工智能是一个能够自我更新、自我完善、自我演进的复杂系统,其摆脱了传统人工智能弱交互、单任务、封闭性的技术局限,人与机器每一次的互动,都会作用于大模型的改进。生成式人工智能的这种特点,也决定了防范生成式人工智能的失控应该是在技术发展过程中始终坚持的目标。
在防范技术失控目标下,生成式人工智能应作为人类的工具来看待,始终保持人类的主体地位。无论技术如何前进,以人为本的理念应当贯穿科技创新的始终。将生成式人工智能作为工具看待,意味着其实质上是人类智力劳动的一种外在辅助,帮助人类完成自我的意愿而已。尽管现阶段可能存在完成得不够好的情况,但也并未改变其协助人类大脑进行创作的本质。所以,生成式人工智能是在代替人类的大脑进行工作。这一过程分别对应着生成式人工智能的数据训练、算法运算、输出内容等阶段。数据训练是机器“阅读”大量语料的过程,就好比人类在创作之前需要阅读、学习一样,创作都是建立在汲取前人成果的基础上进行的。
当前阶段以文本为主的数据训练与人脑阅读存在的最大不同是,人脑的阅读并不需要将阅读内容物理性地复刻,人脑只会将阅读内容消化于神经网络,转化为无形的思想,不会留下有形痕迹。而当前阶段机器却需要将“阅读”的文本语料物理性地复刻。但这种数据训练的方式也在不断迭代,临时复制以及通过听觉、视觉、人机互动等多模态方式进行数据训练的技术已经到来。随着技术的不断迭代发展,不保留文本内容的数据训练或许会成为未来机器阅读的普遍方式。如此看来,数据训练不过是人类阅读的另一种表现形态,只不过在这种表现形态下,机器能够“阅读”远超人类脑力容量的内容,这个数量无限大且没有上限。因而本文认为,在面向未来的工具论视角下,生成式人工智能的数据训练和人类用自己的大脑阅读文献、资料、书籍等并无不同。唯一的不同是,人脑的阅读数量是有限的,而机器却可以“阅读”无限多的语料,且阅读速度远超人类的大脑。而“阅读”的数量规模,“阅读”是否有营利目的,所造成的人类创作格局变化等问题,并非其不成为“阅读”的原因。因为人类的阅读也具有营利目的,例如职业创作者。而人类创作方式的变化,是技术发展的必然结果。因为技术的发展过程,就是不断提升生产力,把人类的一部分劳动不断“外包”出去的过程。在工具论的视角下,生成式人工智能数据训练中的复制行为,本质特点在于“阅读”,而不是著作权法意义上的“复制”。
著作权人并不享有“阅读权”,以保证公众对知识的获取,以及维持文学、艺术、科学领域作品的创作繁荣。只要作品能从公开渠道获得,并不存在违背著作权人的意志,侵犯著作权人的发表权等著作人身权,也不存在手段非法,如破坏著作权人设置的技术保护措施,那么这种阅读、欣赏的行为就是为著作权法所许可的合法行为。只不过在当前机器学习的方式下,“阅读”的外观模式发生了变化,需要首先经历一次“复制”的过程。虽然目前机器学习的阅读行为外观与自然人阅读行为外观有所不同,但从技术发展的前景目标来看,机器学习的目标并不是简单吸收现有作品外在表达,而是对思想、逻辑、语言习惯等的吸收,再以新的表达方式呈现出来。只不过当前的算力、算法等技术还处于不成熟阶段,也受困于数据流动性的难题,不同企业大模型训练数据的数量、质量存在巨大差异,输出端的生成内容总会存在与现有作品相似的表达,从而导致著作权人对数据训练过程中复制作品行为的合法性产生质疑。但如上所述,从技术发展的趋势来看,数据训练的本质特点是“阅读”,输出端的现有问题应在输出端采取措施解决,不应模糊我们对于数据训练中复制行为本质特点的认识。
面向未来,当前人机分离的“阅读”模式或会改变。为了防范技术失控,机器和人脑融合无间的技术概念已经被提出。如有研究提出,通过脑机接口,能够实现人脑与人工智能的融合,人类能够理解人工智能的想法,与人工智能共同思考,人类就不至于会处于被人工智能控制的危险境地。在实现路径上,尽管脑机接口还是一个超前的概念,但这一概念的提出,也充分说明了技术努力的方向,是要使得人工智能始终处于人类的控制之下。如果人机融合真的能够实现,那么今天我们所探讨的数据训练在人脑外部海量复制作品的行为,就会变成技术发展过程中的阶段性动作,这个动作不会始终存在,而是会随着技术的不断更迭而最终消失。今天数据训练的这种外观模式,在未来就会转化形态,会成为与人类如今自我学习阅读一样,不需要经历对内容的有形物理复刻过程。届时人机融合,早已分不清究竟是人在阅读,还是机器在“阅读”。而我们今天所探讨的数据训练是否侵犯复制权的问题,也就是技术发展浪潮中激荡起的一片终将消逝的涟漪而已,早已没有了探讨的必要。上述假设或许存在一定的科幻色彩,但本文意图表明的是,技术的发展带来的特定阶段的争议,站在未来的视角来看或许并不重要。人类社会的技术发展史也已经充分证明了这一点。未来即便没有人机融合,相信也会存在其他不同于当前生成式人工智能深度学习的方式,而困于当下的我们需要有足够的淡定、包容和更多的未来视角,需要对技术的发展保有足够的想象,以暂时“搁置”复制权的态度,为技术的未来预留出足够的制度空间。
三、延伸探讨:面临的挑战及回应
本文的意见不同于当前大部分的学术观点,如果采取本文主张的方式,在实践中也会存在一些挑战,主要包括是否违背国际公约的规定、产业注意义务的可行性以及著作权人的利益失衡问题等,本文尝试进行回应。

(一)
国际公约的挑战

基于对国际公约中所规定的复制权的理解,当前大部分支持生成式人工智能产业发展的观点均主张,既然国际公约已经将复制权作为一种宽泛的权利,那么当前就只能将生成式人工智能数据训练中的复制行为纳入合理使用的框架下进行合法化。本文认为,国际公约的规定也并非我们必须选择合理使用的理由。国际公约已认识到了复制权的效力范围过于宽泛会引发利益失衡问题。如《伯尔尼公约》在第9条即规定,公约联盟成员国的法律有权允许在某些特殊情况下复制作品,只要这种复制不致损害作品的正常使用也不致无故侵害作者的合法利益。国际公约也允许各国自行合法化特定情形下的复制行为,只不过合法化的路径有所不同。但从制度实施的最终效果来看,无论是采用合理使用,还是重构复制权的效力范围,其实最终都达到了实质相同的结果,只是不同路径下的制度改革成本和运行成本会有所差异。况且,国际公约也并没有规定各国不能自行对复制权进行进一步定义。因此,本文认为,在选择采取何种路径时,至少有两点需要兼顾:一是改良后的制度不会增加制度的运行成本;二是新的改良方案要确保维持制度规范的结构稳定、逻辑严谨、体系周延,这是制度规范形式理性的基本要求。但无论是重塑合理使用还是单独增设例外,其实都较难实现上述两点,合理使用制度并不是从根本上解决当前困境的最佳方式。
当前著作权法框架下的合理使用并不适合生成式人工智能数据训练的场景,运用合理使用应对当前问题还需要付出相当的成本,于是接下来的选择就是为生成式人工智能重塑现有的合理使用制度,或者单独增设例外。首先,重塑现有合理使用制度的方案一般为优化当前我国的立法模式,采用弹性、开放式的合理使用条款。其实有关我国著作权法中合理使用封闭式立法弊端的讨论由来已久,并非今天才被提上日程。前文已述,如果采取弹性、开放式立法,实质给予了法官较大的自由裁量权,制度运行不一定会如想象般完美。自由裁量下的合理使用判断增加了很多的不确定性,如前所述,不同法院间经常出现不同意见,这些都是制度运行的成本。其次,如果选择为生成式人工智能单独增设例外,会破坏著作权法律规范的稳定性、逻辑性和体系性。作为一种已经非常庞杂和逻辑并不连贯的权利限制制度,合理使用的缺陷早已遭到诸多诟病,用合理使用来解决复制权的过度控制,结果只会加剧这种庞杂与不连贯。面对不断变迁的技术,复制权始终在不断遭遇尴尬困境,之前有临时复制、系统缓存,以及数字图书馆、云计算海量存储作品等问题,现在有生成式人工智能的数据训练,未来可能还会有新的技术引发新的复制问题。如果每出现一次新问题,就为新的问题单独增设例外,或者扩充合理使用规则的内容,其实只能解决某一类情景下的复制问题,而无法从根本上破解复制权的困境。这种无限扩充合理使用范围的方案,最终会破坏法律规范的结构稳定性、逻辑严谨性和体系周延性。
合理使用并非万能法宝,在实践适用中存在着各种不确定性,并不能完美解决新技术带来的利益失衡问题。复制权的立法过程充斥了太多的利益博弈,导致权利效力范围的划定充满了对现实的妥协而前瞻性不足。从当前国际公约中对于复制权的规定来看,国际公约也意识到了复制权范围过宽所引发的利益失衡,从最终结果上看,也并不排斥不损害作品的正常使用、不致无故侵害作者合法利益的复制。与其选择不断扩充合理使用,不如选择恰当定位复制权的权利范围,为所有新技术条件下合法的、不可避免的复制行为“正名”。生成式人工智能的数据训练非常重要,如果不能够从根源上破解数据训练的复制难题,各国进行自我训练的生成式人工智能很可能会因为数据不全面而引发生成内容的偏见、歧视、价值观及道德的缺失等严重危机。各国需要构建起统一的制度方案,并配合阶段性的权宜规则,在不影响著作权人市场利益的衡平方案下,允许在生成式人工智能的数据训练方面进行广泛且深入的内容共享。首先可通过司法在个案中进行解释和探索,逐渐构建起我国自主的知识产权规则体系并对外输出。如此,才能从根本上解决复制权不断面临的尴尬,也能够为未来可能不断出现的与复制有关的问题提供统一的解决方案,实现复制权的效力范围与合理使用规则内容的“此消彼消”,维持著作权法律规范逻辑体系的严谨,同时也为世界范围内生成式人工智能产业的发展铺垫制度基础。

(二)
产业注意义务成本的挑战

当前,将生成式人工智能企业著作权注意义务的实现程度,作为评价其数据训练阶段的复制行为是否具有“传播性”的考量因素,还只是一种理论上的构想。但是保护权利人权益、护航产业的长远发展已经是各方基本达成的共识,现阶段的关键是如何寻找到能够让各方都满意的平衡方案。在这种初衷之下,生成式人工智能企业著作权注意义务体系的构建是具有强烈的现实意义的。当前面临的实践考验是,企业能否承担此种注意义务下采取必要措施的成本,以及如何合理设计必要措施的具体内容。对此,本文初步回应如下:
第一,要求生成式人工智能企业采取相关措施防范侵权,以及防范侵权后果扩大已写入我国的相关规范中,相关措施的成本负担及具体内容实质是一个动态变化的体系。在技术发展的初期,在护航产业发展的政策考量下,理性的规则设计是给予产业相对宽松的成长空间,并不应施加超出企业承受能力的注意义务。只要规则的清晰度足够,这种确定性就会为创新和产业的活跃发展提供空间。以避风港规则为例,在互联网产业发展的早期,由于平台监控侵权内容的能力有限,因此避风港规则以“通知—删除”及红旗规则作为判定平台主观过错的方式,平台实际承担的成本压力并未高出其技术能力。但随着算法等技术的兴起,平台监控能力逐渐提高,对于平台过错的考量单纯依靠避风港规则已经不能满足现实的要求,实践中避风港规则的适用正在转向,因此可以将其视为产业发展中的一个阶段性的规则。在算法推荐时代,平台责任制度给予平台自我监管的压力相较于“避风港”时期有所增加,但此时在技术加持下,平台发现侵权内容的能力也随之增强,对其主观的判断也越来越不依附于“通知—删除”规则。所以,注意义务的持续施加会引发平台自我管理技术的重塑,平台中针对同一类侵权内容采取必要措施的成本负担将系统性降低,还会催生出更具有规制效果的技术基础设施,从而进一步降低必要措施的系统性成本,提高防范侵权等的效率。这种变化能确保在技术发展的不同阶段,产业都能够获得空间进行发展。这一制度经验在不限制创新的情况下减少了数字环境下的著作权侵权,可以作为生成式人工智能企业著作权注意义务设置的参考。在技术发展的不同阶段,生成式人工智能企业发现、识别、控制侵权内容,以及重新创作的能力是不同的,因而需要分别配置与其技术能力相匹配的合理注意义务。站在未来的视角,生成式人工智能企业的著作权注意义务也会成为一个阶段性的规则。随着算法、算力的不断提高,当生成式人工智能具有了更强大的再创作能力时,输出端输出侵权内容的概率会降低,同时通过技术识别、发现侵权内容,监测用户发出侵权指令的能力也会逐渐增强,及时控制侵权内容的输出也将成为不那么困难的工作。届时,今日生成式人工智能企业面临的数据训练窘境或许将不复存在,探讨数据训练中复制作品的行为是否侵犯复制权也没有了现实意义。因此,采取必要措施的技术终将提升,企业的成本负担及注意义务的具体内容也会不断发生变化,这是一个已被互联网产业验证的真实结论。从长远看,设置注意义务这种方式能够促进企业在权利社会中的自我管理变得更为有效、更能适用技术的更新迭代,以实现人工智能产业的健康有序发展。
第二,是否采取防范侵权等技术措施实际是由企业自我评估后选择性适用的,能够负担得起这一成本的企业自会选择实施技术措施。如果中小微企业评估后认为成本过高,可能选择其他方式。比如,企业评估自身是否可以承担得起侵权发生后的法律责任,在法律责任和技术措施的成本之间进行经济学的衡量,判断不采取相关措施是否能够适应市场商业模式的需求、承受市场竞争中的优胜劣汰。而涉及注意义务的一系列规则设计,也需要尽可能降低各类型企业的成本负担,否则将不会受到市场主体的承认从而失去护航产业发展的制度效果。

(三)
著作权人利益与内容创作的挑战

将生成式人工智能对海量作品进行数据训练的行为合法化,是否会带来著作权人利益的失衡,也是当前来自现实层面的重要挑战。如北京互联网法院当前正在审理的数据训练案中的原告即主张,涉案AI绘画软件学习到原告作品的绘画风格后,“一键生成”的大批量图片可以轻松替代原告一笔一划绘制的作品,残酷挤压原告依托其作品获得收益的空间,对原告作品未来的市场造成毁灭性打击。生成式人工智能技术的快速发展,带来了创作人对失业的普遍担忧,可能会进一步加大在著作权法中合法化数据训练行为的规制难度。当前有研究主张为了补偿著作权利益相关群体失去的利益,可推行法定许可或补偿金制度。
本文认为,法定许可或者补偿金制度的可行性存疑。姑且不论需要支付的费用总量可能为天文数字而不具有可执行性,各方对费用的计算标准也可能难以达成共识,利用金钱补偿相关利益群体的理论方案极有可能遭遇现实的滑铁卢。更关键的是,著作权利益相关群体因生产力提升而失去的利益,并非著作权法所管辖的范围,也不应当成为阻碍著作权法变革的理由。社会的生产力在不断迭代,迭代中所引发的矛盾是个社会问题,需要运用其他的方案进行调和,例如针对创作者失业问题的社会综合治理手段等。人工智能技术自诞生那天起就已经引发了各行业对于失业的普遍担忧,但失业是技术引发的一个深刻的政治和经济学议题,这种议题不应该交由著作权法来解决,著作权法也无力承担起这样的责任。著作权法只适合在自身的逻辑体系和立法目的之内运行,并不需要回应技术变迁所引发的创作方式的变革。如果再次完全以利益导向变革著作权法,恐怕在未来又会引发新的问题,而需要继续给制度增加新的“补丁”,就好比合理使用在当前的不断扩张一样。人类社会已经不可避免地迈向了数智时代,人工智能可能会彻底变革人类社会和经济。既然选择发展,各行各业都面临着发展所带来的阵痛,那么及时调整适应,最大化降低风险带来的冲击,将技术转化为“为我所用”的生产力动能、走向新的市场才是各行业的理性选择。事实上,著作权法激励自然人创作的整体格局并未发生改变,高创造力的自然人作者依然拥有巨大的市场。因为机器是从人类的知识中学习的,但人类却具有与生俱来的天性、感知力、情感等禀赋,这种禀赋能够让人类实现从无到有的创作,这是机器创作难以达到的。所以市场会筛选出真正有创造力的人类作者。如果打通数据训练的著作权法障碍,再明确所生成内容的可著作权性,并将权利分配给人工智能技术的使用者,则能够有效激励使用者的创作热情,促使其继续利用人工智能创作出真正具有价值的作品,构成一个前端与后端协同激励的良性制度循环,最终增进社会的整体福祉。因此,从公共政策目标考量,合法化数据训练中复制作品的行为,并将构成作品的生成内容的著作权归属于生成式人工智能的使用者,应是更为有效的制度选择。
支持技术的发展,现有的知识产权保护秩序也需要维持。人工智能企业需要依据技术发展不同阶段的技术能力,做好著作权侵权风险的管控,以技术手段控制用户指令和输出生成侵犯现有作品著作权的内容,回归生成式人工智能技术的初心——创造新内容。此外,是否充分保护了著作权,其实也和生成式人工智能企业著作权注意义务的具体内容密切相关。因此,该挑战和上一个挑战实质一脉相承,涉及如何根据技术发展不同阶段的技术水平,场景化设置合理著作权注意义务的问题,这是另外一个值得深入探讨的重要课题。在符合场景化著作权注意义务的要求时,不损害著作权人的合法权益,著作权人还可借助生成式人工智能这一创作工具进行再度创新,在新的市场中获取收益,也没有背离著作权法保护作品、激励人类创作的制度目标。
结论
本文从权利法的视角,主张著作权法对当前生成式人工智能数据训练复制行为的回应方式应是通过解释论路径重塑复制权,以“固定性+传播性”的构成要件解释侵犯复制权的行为,并补充以技术发展的前瞻性视角进行回应。在符合著作权注意义务的阶段性场景要求时,上述复制行为可定性为不具备“传播性”,应属不侵犯复制权的行为,而无需动用合理使用、法定许可等责任豁免制度。本文尝试解释当前争议问题的根源并寻求根本性的解决之道,期望学界能够以更加丰富的想象力和前瞻性眼光思考著作权法的未来走向。科技便利了我们的生活,也应该让我们的视野变得更加宽广,将思考的眼光放置于技术发展的几十年、数百年甚至是更长的生命周期中。人类迈向数据社会已经是不争的事实。在未来社会,海量数据叠加高度智能的算法,人类可能无法脱离人工智能技术进行创作,而生成式人工智能的自我学习过程也可能会有不同于今日数据训练的另外一种呈现方式。所以我们今天所讨论的问题,或许终会消逝在科技发展的洪流之中,而这也正是支撑本文主张搁置复制权的重要信念。

往期精彩回顾

张宇帆|论人工智能政策与法律协同治理

目录|《东方法学》2024年第6期

黄忠|论中国民法本土化的理论逻辑

李凤章|契约化赋权:我国土地使用权建构的制度逻辑

蒋悟真|民营经济促进法立法理念及其制度实现

张勇|领域法视域下数字信用的犯罪治理


上海市法学会官网
http://www.sls.org.cn