我的位置: 上观号 > 上海市法学会 > 文章详情

刘云|网络数据爬取合法性判定的三阶层认定标准

转自:上海市法学会 2025-07-29 09:40:13

本刊唯一投稿渠道:dffxtg@126.com

网络数据爬取是一项价值中立的数据采集工具,对于海量数据索引建档、保护互联网开放性、促进社会智能化转型具有不可或缺的作用。《网络数据安全管理条例》第18条为网络数据爬取行为的合法性判定提供了一个三阶层的判定依据。一是对数据的公开性进行判定,认定公开数据均具有“可爬性”,该限制属于对公开数据的合理使用。二是对爬取技术的正当性进行判定,对技术行业的整体发展水平和被爬取方的技术防护成本进行平衡考虑,区分破坏性技术和规避性技术。三是对数据用途的差异性进行判定,根据数据爬取方的用途评估对被爬取方是否产生实质性替代的影响,判断应否支持对他人公开发布的数据的转化性使用。

2024年9月30日发布的《网络数据安全管理条例》第18条规定:“网络数据处理者使用自动化工具访问、收集网络数据,应当评估对网络服务带来的影响,不得非法侵入他人网络,不得干扰网络服务正常运行”。相比于《网络安全法》第27条要求“任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动”,《网络数据安全管理条例》第18条正视了自动化程序访问数据的合理需求,并未将网络数据爬取视为打击对象,而是要求进一步区分数据爬取的具体情况来判定爬取内容是否在合法范围之内,但是其原则性的条文表述无法为数据处理实践提供具体的指引。同时,《中共中央关于进一步全面深化改革、推进中国式现代化的决定》明确提出“促进平台经济创新发展”“加快建立数据产权归属认定、市场交易、权益分配、利益保护制度”,彰显了构建更有利于经济发展的数据治理制度的时代需求。2025年修订后的《反不正当竞争法》第13条专门增加了一款关于数据竞争的专条:“经营者不得以欺诈、胁迫、避开或者破坏技术管理措施等不正当方式,获取、使用其他经营者合法持有的数据,损害其他经营者的合法权益,扰乱市场竞争秩序”,强调了对经营者数据产权的保护,却缺乏对相对方合理爬取数据的边界划分。截至2025年3月,在北大法宝和互联网公开资讯中进行检索并去重统计,我国法院审理的涉及网络数据爬取案件超过260件,其中刑事案件超70件;此外,我国行政执法机关查处涉网络数据爬取案件超40件。网络数据爬取的规则适用特别能够体现“兼顾安全与发展”的理念,本文立足网络数据爬取日益成为主流的数据获取方式的现实情况,结合国内外立法和司法案例的最新发展动向,提出数据的公开性判定、爬取技术的正当性判定、数据用途的差异性判定的三阶层的方式平衡数据需求方和数据发布方之间的利益冲突。
一、保障网络数据合理爬取的必要性
网络数据爬取是通过自动化程序代替自然人获取互联网数据的方式。《网络数据安全管理条例》第18条所称的“自动化工具访问、收集网络数据的工具”在信息技术行业通称为“网络爬虫”,来自英文Web Crawler的直译,本身是一个中性的技术名词,然而由于其名称中的“爬虫”容易使社会公众产生消极意义的联想进而形成负面印象。我国近年来处理了一大批有关网络数据爬取的民事纠纷和刑事犯罪案件,涉及数据领域的不正当竞争纠纷、非法获取计算机信息系统数据罪等案由,其中绝大多数结果都判定数据爬取方构成侵权乃至犯罪,这种“遇难者偏差”“过罪化趋势”进一步加剧了社会对于网络数据爬取与“灰黑产”的关联认识。有学者通过比较美国、欧盟和中国模式,指出中国司法实践中存在过度保护竞争者利益而忽视数据自由流通的问题,建议在裁判中引入“合法利益测试”以兼顾多方利益。同时,最高人民法院在裁判文书中明确指出,即使爬虫技术曾被用于违法活动,但这并不等于该项技术本身具有违法性。事实上,一家成功的互联网企业可能同时具有数据爬取者和被爬取者两种身份,数据的流入和流出中都有智能代理程序发挥作用,网络数据爬取行为的价值在通用人工智能全面应用和社会数字化转型全面铺开的当代,具有更加重要的价值。
第一,网络数据爬取是对海量数据资源进行索引建档的常见途径,可以提高信息的可及性。早期互联网的功能之一是信息共享,但随着互联网规模的不断扩大,数据量呈现指数级增长。面对如此海量的数据,如果缺少有效的索引与归档机制,用户将难以有效地获取所需的信息。网络爬虫是通过自动化程序系统性地浏览互联网页面并提取其中数据的工具。它们通过访问网页上的超链接,不断扩展抓取范围,并通过特定的算法对这些数据进行整理、分类与索引。特别是对于动态更新变化的互联网内容,网络数据爬取能够对最新内容进行跟踪,并在索引中作出反应,这种实时响应性是人工或静态系统无法实现的。在人工智能时代,基于网络数据爬取构建的开源数据集Common Crawl,自2017年以来,每月都会发布爬网数据,每次爬网捕获30亿到50亿个URL,这构成了全球主流基础大模型训练的前提基础。根据我国数据主管部门发布的数据,网络数据生产总量中只有2.9%的数据被保存,大量的数据最终会消失。全球互联网每天都会生成大量的数据,如何发现和利用如此巨大体量的数据是人类共同面临的问题,网络爬虫的自动化抓取与索引技术使得用户能够在几秒钟内访问全球范围内的数据,大大提高了信息的可及性。
第二,网络数据爬取是保护互联网开放性的必然要求,可以打破数据孤岛。互联网自诞生以来便采用分布式架构,即由全球范围内数百万个数据中心、网站和应用构成的网络体系。每个网站或服务器都由不同的实体或个人维护,各自管理自己的数据。分布式的互联网结构导致数据被分散存储在不同的系统中,这种设计带来了以下几个问题:数据碎片化;数据平台缺乏统一接口;数据平台局部开放,整体封闭。这种碎片化使得即使在不涉及垄断的情况下,数据资源仍然难以被统一访问和利用。不同平台的数据格式、访问协议和标准各异,导致数据难以跨平台交互。有些平台虽然部分数据是开放的,但它们的整体架构仍是封闭的。例如,许多开放数据平台只提供有限的数据集或接口,用户需要跨越多个平台,才能获取足够的有效数据。这种局部的开放也可能导致整个互联网生态中的信息交流受限,进一步加剧数据孤岛现象。网络数据爬取工具能够自动化地抓取、收集和整理分散在不同网站和平台上的数据。这使得用户可以打破互联网分布式架构下数据之间的孤立状态,通过爬虫跨越不同来源,整合原本分散的数据资源。例如,气候变化研究人员需要从全球各地的气象数据库、学术论文和政府工作报告中获取数据,通过爬虫可以自动化整合这些不同来源的信息,这也是应当得到支持的正当价值追求。
第三,网络数据爬取是促进社会智能化转型的必然要求,可以提高工作效率。传统的互联网运营者假设其主要服务对象是自然人,用户以自然人的身份与网页交互,手动获取所需信息,所有的交互行为都由人类完成。用户通过搜索引擎、浏览器等工具主动搜索信息,手动分析和处理信息。自然人或者法人被允许组织雇用劳力来完成信息采集的过程,但现实中平台协议或者技术措施往往会阻止自动化机器人更高效地完成这些工作,其本质是一种人为降低信息获取效率、增加不必要成本的做法。换言之,通过爬虫工具自动化获取数据与编写爬虫者手动收集的数据并没有本质区别。根据全球网络安全公司Imperva在2024年4月发布的报告,互联网上的自动化程序访问流量已经占到49.6%,而人类的访问流量则为50.4%,且处于逐年下降的趋势。未来的互联网正在从以人为中心的访问模式,逐步向以智能体(AI Agent)为中心的访问模式转型。随着以MCP协议、A2A协议应用为代表的智能体全面应用,机器人访问将成为更为普遍的网络数据交互方式。智能体通过网络数据爬取技术,不仅可以收集大量分散的信息,还可以根据用户需求进行个性化处理和分析,从而提供更为智能化、定制化的服务。随着智能体和其他自动化技术在互联网中的应用日益广泛,网络运营者也应当将这些智能体作为合法用户群体。
当前,越来越多的国家提倡将“上网权”列为一项新兴人权,联合国人权理事会2016年发布的《促进和保护在互联网上行使人权的决议》明确指出,上网权和线下的人权同等重要。或许还应当进一步延伸这一未来的权利,利用自动化工具合理采集网络数据是“上网权”的应有之义,这对于降低个人和中小企业信息的获取成本、加快数字化和智能化转型至关重要。然而,网络数据爬取也存在“搭便车”的不正当竞争问题、超出合理使用范围而侵犯他人著作权或者数据权利的问题,乃至构成破坏计算机信息系统罪或者非法获取计算机信息系统数据罪等问题。在肯定网络数据爬取的正当性基础上,也必须明确该行为的法律红线。
通过观察法院已经审理的网络数据爬取案件(特别是反不正当竞争案件),可以看出:网络数据的被爬取方(一般是原告)会主张:其对于数据形成的投入应当受到保护;该数据帮助原告建立起的市场竞争优势应当受到保护;采取的反爬取措施应当得到遵守;通过用户授权等方式取得的数据权益应当被认可。网络数据爬取方(一般是被告)会主张:被爬取方构成数据垄断;双方不存在竞争关系;所收集的数据不属于法律法规或者行业惯例的禁止范围;收集数据时无主观恶意;不存在损害、落入著作权法保护范围的数据;不在反不正当竞争纠纷案件审理范围内;被爬取方的数据权益没有被法律确认。当前数据权益反不正当竞争保护没有预定的具体法益模式,注定其只能是一种过渡性选择,而不是一种最终办法。面向未来,可以借助《网络数据安全管理条例》第18条和未来的数据产权合理使用制度建立一个更加统一的分析框架,从而提高网络数据爬取行为合法性判定的可预期性。
二、阶层一:数据范围的公开性
数据是否属于公开领域决定了该类数据的访问方式,这是法院在网络数据爬取案件中需要首要考虑的问题。《网络数据安全管理条例》第18条要求“不得非法侵入他人网络”,其实践指导意义主要是帮助区分“公开数据”和“非公开数据”。因为对于公开数据的访问往往不构成非法侵入,“非法侵入”的对象主要对应非公开数据。在过去的案件中,北京市高级人民法院(2017)京民终487号判决、北京市海淀区人民法院(2017)京0108民初24512号判决、北京市知识产权法院(2019)京73民终3789号和(2022)京73民终4201号判决、浙江省杭州市余杭区人民法院(2021)浙0110民初2914号判决以及天津自由贸易试验区人民法院(2022)津0319民初11108号判决,都对公开数据与非公开数据的区分作了详细论证。这些案件反映出的共识是,对于非公开数据,直接推定行为具有不当性,对于公开数据则需要再往下一个阶层进行其他考量因素的判断。

(一)
公开性是判定数据资源公共属性的依据

从比较法的视角来看,早期的网络数据爬取案件和域外立法并不考虑数据的公开性。特别是美国、英国分别在1986年、1990年颁布的《计算机欺诈和滥用法》(Computer Fraud and Abuse Act,以下简称CFAA),将计算机系统及其存储的数据视为一类近似于不动产的“动产”,任何访问他人服务器的行为都必须“敲门”并得到主人的同意才可以进入,否则都将构成“未经授权的访问”。20世纪90年代,动产侵权首次被美国法院在eBay诉Bidder’s Edge案中应用到数据爬取领域。Bidder’s Edge辩称他们的爬虫程序只是爬取了公开可见的数据,法院却直接将重点放在爬虫的方式上。法院认为,尽管数据是公开的,但Bidder’sEdge的自动化爬虫程序以未经授权且频繁的方式访问eBay网站,给eBay的服务器带来了过载负担,构成“侵入行为”,即对eBay的服务器资源进行了不当干扰。其历史背景是计算机系统仍然是少数人享有的重要财产,互联网的公共属性亦尚未形成,且计算机网络上发布的信息主要由设定目标的用户访问。
支持网络数据爬取方的案件都会考虑数据的公开性问题。个案中,法院将被爬取的网站比作一个对公众开放的博物馆,在公共空间入口处建立的robots协议必须对所有游客一视同仁,在无正当理由的情况下不得歧视性对待自动化访问的网络爬虫。在域外,欧盟法院在Ryanair Ltd诉PR Aviation BV(2015)案件中裁定,公开数据本质上不属于Ryanair独占控制的范围,尤其在数据库本身不受法律保护的情况下,Ryanair不能通过反爬取的合同条款单方面扩大其对这些数据的控制。美国第九巡回上诉法院在2019年裁定,HiQ的行为不构成违反CFAA,因为HiQ所爬取的数据是公开的,且法院认为CFAA的意图是保护私人网络而非限制对公开数据的访问。法院还表示,如果禁止HiQ访问公开数据,将阻碍创新和竞争。以上裁判都在考虑为公开数据提供更大的访问自由空间。
互联网具有信息公共广场的功能,发布者一旦决定在公开互联网发布相关信息就要遵循一种“广场规则”来保障信息的自由传播秩序。(互联网从其诞生之初就被设计为一个开放的信息交流平台,旨在促进知识和信息的自由共享,这与记录在日记本、放置在保密环境下的资料具有显著差别)正如互联网的创造者伯纳斯—李(Tim Berners-Lee)所言:网络是为所有人而建的,应该确保其开放、可访问且不受控制。这种观点强调信息在网络上的自由流通,一旦信息被发布,它或将成为全球公共资源的一部分,不应受到发布者的过度控制。还有学者认为:开放是网络运营者的基本义务,特别是具有公共利益属性的数据应当强制开放。有司法实务专家进一步提出,可以适用《民法典》第494条第2、3款规定的强制缔约规则及知识产权的强制许可制度,来促进数据资源的合理流动。从互联网的发展历程来看,信息共享能够极大地促进社会创新,互联网时代的非市场性生产和协作,比如传统的开源软件、知识百科到当前的人工智能,它们都依附于信息(数据)的自由流通来维持运营。这些互联网服务获得了广泛的流量关注,正是因为发布者不对其信息实施过多的控制,用户能够自由利用和修改信息以产生新的成果。随着社交媒体和大数据的发展,许多信息的发布变得更加公开化和普遍化。用户在互联网平台上发布的信息,即使是在某种程度上仍然受隐私和个人信息保护,但在合理范围内可被用于再分析、再传播或商业用途,与那些尚未公开发布的信息在保护程度上具有本质区别。

(二)
何为公开的数据

公开数据是指那些发布在公共网络空间,任何人都可以自由访问的数据。从数据发布者的角度来说,一般希望该数据被更多人看到,因而没有设置访问限制的数据通常可能属于公开数据。从数据获取者的角度来说,通过输入特定的统一资源定位系统(Uniform Resource Locator,URL)就可以径直获取的数据通常可能属于公开数据。相反,那些深网(Deep Web)中的数据则不属于公开数据,包括受密码保护的内容、学术数据库、私有网络、网络后台统计数据和其他不能通过普通搜索引擎直接访问的数据。例如,用户打赏和主播收益的真实数额仅限于提供给主播查看的数据系非公开数据的情形。经营者选择何种数据公开、何种数据不公开,通常是基于数据安全、用户隐私以及平台经营者商业策略的实现等考量。据行业统计,深网的规模可能是表面网(Surface Web)的400到500倍,这些数据是制度和技术上赋予网络运营者保护自身数据不被滥用的防护网、自留地。公开数据则是人类的共同财富,促进这些数据的复用有利于社会总体福利最大化,也有利于推动数据的社会价值得到真正实现。
公开数据的认定也需要尊重护栏规则,也即允许数据发布者或者数据产权人通过相应的技术措施、管理措施设置护栏以限定数据的访问权限。然而,不同的技术措施、管理措施所设置的护栏有高有低,这种护栏高低的差异可能可以构成一个公共数据认定的谱系,亦反映出公共数据的公开程度是存在差异的。对于护栏效果的认定,存在不同的解释路径。第一种路径是完全按照护栏设置者的立场来解释,则任何一种管理或者技术措施均可以视为公共信息广场建立的封闭堡垒,有助于不同规模的企业在互联网空间控制相关数据的流动。第二种路径则是要按照互联网行业通常的认知来解释,护栏对数据的保护程度要与护栏的安全有效性相匹配,以此避免在公共信息广场进行“违建”,同时也有利于防止一般的技术人员不慎踏入他人设置的违法圈套之中,从而综合保护互联网公共信息广场的数据流通安全。司法的保守主义立场通常容易倾向于第一种路径,然而,互联网的繁荣发展趋势更加需要第二种路径。基于此,可以将这些设置护栏的措施按照表1的类型进行映射:

表1  公开数据的谱系认定
对于其中的“划线护栏”,要考虑这些面向非用户提出反爬取声明是否清晰、具体,在模糊时可以作有利于数据爬取方的解释,在清晰、具体时要按照普遍正义的原则判定其有效性。对于其中的“篱笆护栏”,北京市高级人民法院在裁判说理时指出:“受访网站设置的Robots协议本身应当是合理的,不应违背‘促进信息共享’的初衷。互联网站所有者设置的Robots协议必须符合正当性、合理性,例如出于保护受访网站的内部信息或敏感信息的需要,或者出于维护受访网站正常运行的需要,或者是出于保护社会公共利益的需要。”否则,为了限制爬取方开展创新、竞争业务,阻碍数据的正常流通利用的Robots协议无法构成有效的约束。对于“围墙护栏”规则,美国加利福尼亚北区联邦地区法院的判决指出,Facebook和Instagram关于反对数据爬取的使用条款仅适用于登录账户后的数据访问行为,而不适用于未登录账户时对公开数据的抓取行为。该法院在另外一起案件中指出,X平台的使用条款不能凌驾于联邦版权合理使用规则之上,若公开数据本质上可通过普通浏览器访问,则不应以合同或技术手段禁止合理使用的爬取行为。相对而言,“电网护栏”在大多数时候可以对数据进行有效的保护,但是在符合该技术的一般访问过程中可提取的数据依然可以归类于公开数据。例如,在较低的访问频率限制、机器人验证的技术有效性就属于“低压电网护栏”,能够通过该测试的数据依然属于公开数据。

(三)
公开数据爬取是对公开数据产权的合理使用

公开数据爬取规则属于数据产权制度体系中的合理使用规则。我国在政策上已经确定了构建数据产权的发展方向,数据产权制度可以保护权利人控制权,同时也需要维护公开数据的利用便利度,支持数据驱动的新质生产力发展。在公开数据产权的合理使用方面,应当综合考虑爬取人本人的使用目的、爬取的方式、被爬取方的网站规模和爬取行为对被爬取方的利益影响等要素来确定合理行为的边界。
通常情况下,发布公开数据的行为可以视为数据产权的自我限制或者减损。只有对非公开数据的爬取才应当受到信息发布者或者数据产权人的严格控制,在获得其授权的条件下方可进行数据爬取。尽管公开数据中可能同时包含个人信息和受到版权保护的作品,但是有必要区分“爬取行为”和“使用行为”,也要区分“数据产权”和“著作权”“个人信息权益”。从行为属性来说,“爬取”行为可被视为《个人信息保护法》第13条中“在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息”而不需要个人同意,也可以被视为“中间复制行为”或者“非享受性阅读”而不被视为作品侵权。
公开数据的合理使用源于数据访问者的信赖利益保护,避免网络用户“非故意”的“误入”被判定为违法行为。越来越多的司法机关已经认识到公开数据和非公开数据的使用规则是存在差异的。例如,美国联邦最高法院使用“门开、门关”的类比,表示当计算机或网站的“门”开着时——即信息公开可访问时——无需授权。也即,未经授权访问计算机系统的违规行为需严格限定为突破技术或权限限制的访问,不适用于公开网站。个案中,法院指出:“如果要禁止某一类人进入参观,则需要有合理、正当的理由。在缺乏合理、正当理由的情况下,禁止某一类人进入一个对公众开放的博物馆参观显然是不合理的。”笔者对此表示赞同。在数据产权制度建设中,必须相应地设立数据合理使用制度,将公开数据纳入其中。
公开数据中蕴含大量的人类基础知识,对于众多个人或组织而言,获取和使用这些公开数据是学习知识与创新创造的必备基础,需要构建符合公共数据流通利用规律的合理使用规则。现代社会的信息爆炸体现为公开数据的极大丰富,公开数据已经很大程度上改变了教育学习、经济创新乃至法治社会发展的方式,例如教育教学不再是“照本宣科”而是培育学生的“科学思维”,法治社会不能以“不懂法”作为免责事由,这需要不断提升包括法律法规在内的各类公开数据的“触手可及”状态。将公开数据纳入严格的权利保护范围可能导致各方的消极应对,甚至可能将无法让真正被关注的利益得到保护。类似于开源社区关于公开数据的共享规则,开源数据创作者的关键诉求是希望能够尊重作者的“署名权”,也即能够在形式上肯定他们的贡献,这种“来源显示”也契合了当前关于提升人工智能治理透明度的监管要求。由于缺乏公开数据的合理使用规则,目前的公开数据使用者不得不对其数据来源进行保密处理。斯坦福大学基础模型研究中心的报告就指出,大多数先进人工智能系统的开发者对其数据的来源和合法性含糊其辞,在调查的14个基础模型中,只有1个披露了数据创作者、版权状态和数据许可的详细信息。这种不透明性给下游开发者、部署者带来了挑战,导致作者无法核实人工智能开发者是否遵守了许可规定和法律,加剧了数据来源相关的问题。相反,明确公开数据属于合理使用,或许能够让人工智能的训练数据来源更加透明,从而支持公开数据利用行业以科学规律的迭代创新。
数据产权的合理使用与著作权上的合理使用制度具有类似的功能,但是两个制度之间存在差别,这种差别直接关系着著作权保护和数据产权保护的权利竞合关系。相较于作品的流通价值,数据的流通价值更加需要彰显,故而数据产权的合理使用应当比著作权的合理使用范围和程度更加宽容,如果数据产权的客体中也包含受到著作权保护的内容,则可以由权利人自主选择数据产权或者著作权的保护方式。从长期而言,还需要在数据产权制度的建设中为两种权利规则的适用冲突提供更加明确的指引。
三、阶层二:爬取技术的正当性
尽管公开数据要遵循信息自由流动的规则,但是,网络数据爬取技术的使用应当受到必要的约束。《网络数据安全管理条例》第18条提出的“不得干扰网络服务正常运行”属于对爬取技术正当性的考虑,2025年修订后的《反不正当竞争法》第13条提出的“不得以欺诈、胁迫、避开或破坏技术管理措施等不正当方式”属于对数据竞争案件中各类爬取技术的总结。在我国法院裁判的相关案件中,法院一般也会将爬取技术的正当性作为一个争议焦点进行论证,对于爬取公开数据的正当性,应结合获取、使用数据的具体手段和方式,综合考虑该行为是否违反行业规范、商业道德等方面进行分析判断。

(一)
爬取技术正当性的考虑因素

网络公开数据的爬取可遵循技术自治优先,只要是和平的攻防,应视为合理的商业自治行为,可尊重各自的攻防权利自由。也即,反爬取方有权设置必要的技术措施防止公开数据爬取,爬取方也有权采取合理的技术措施越过低矮的防护栏获取公开数据。对于爬取方,保护其对不违反法律强制性规定前提下爬取的数据有权加工使用;对于被爬取方,保障其采取技术措施限制特定的爬取行为。爬取技术的正当性范围与通常的网络数据爬取能力强弱成正比,将数据发布在公开互联网的网络运营者如果要进行权利保留,必须采取对抗通常网络数据爬取能力的防护水平,从而为正当的网络数据爬取技术指示安全边界,可以称之为“警示”规则。“警示”规则对于维护公共信息广场的秩序至关重要,公共互联网本身是一个公共空间,只有花费成本建造足够坚固的护栏进行警示,才能在其中划出一个私域空间或者受限空间。也即,必须强调技术措施的有效性,反爬的技术措施只能在事实上能有效阻止大多数用户未经授权接触数据内容时,才能得到保护。
如果网络爬取和反爬取的攻防超越一定的限度,那就有必要建立法律规则进行干预调控。《网络数据安全管理条例》第18条所提出的“正常运行”包括“整个网站的正常运行”“反爬技术措施的正常运行”两个维度。一种丛林法则的立场认为,只要没有造成网站瘫痪,则属于“正当”的访问。这种观点存在的问题是抛弃了商业道德的要求,不符合互联网发展的目标,也将导致互联网空间的安全感大幅降低而阻碍行业的可持续发展。爬取技术的正当性要考虑被爬取方的技术防护成本,在数据爬取方和被爬取方之间对公开数据的保护成本进行公平配置。对于“整个网站的正常运行”可以通过网络数据爬取技术造成的实际损害后果来认定,这种后果是可以直接观察到的,具有严重破坏性的技术。对于“反爬技术措施的正常运行”,则应当结合商业道德来判定可信的访问身份,为网络运营者在一个透明可信的环境中实施妥当的数据运营模式提供对称的信息。

(二)
破坏性技术的正当性否认

破坏性技术是指通过过度或异常的爬取行为导致目标网站的性能下降、异常运行,甚至直接导致其瘫痪。本文将《反不正当竞争法》第13条所说的“欺诈、胁迫”和“破坏”统称为“破坏性技术”。这类技术的使用通常伴随着大量的并发请求和高频访问,最终超出了被爬取网站的技术承载能力。其核心特征在于对目标网站正常功能的直接影响或破坏。破坏性技术的正当性认定采取结果论,这在我国立法中早已有之,如《反不正当竞争法》第13条明确要求“经营者不得利用技术手段从事、破坏其他经营者合法提供的网络产品或者服务正常运行的行为”。工业和信息化部早在2011年发布的《规范互联网信息服务市场秩序若干规定》就明确将“恶意干扰”作为认定标准。该规定第5条规定“互联网信息服务提供者不得恶意干扰用户终端上其他互联网信息服务提供者的服务,或者恶意干扰与互联网信息服务相关的软件等产品”。该规定的言外之意是被爬取者或者监管部门需要认定网络爬取构成“恶意干扰”才可以禁止访问。但是,“恶意”具体认定标准的缺乏导致该规定较少被使用。本文认为,破坏性技术主要包括欺诈性访问、超高频访问两种情况。
欺诈性访问将导致网络运营者的正常识别机制失效,构成破坏性的爬取技术。例如,非法爬取者可能会伪装成合法用户或搜索引擎爬虫,通过修改请求头信息(如User-Agent)来绕过反爬虫机制。非法爬取可能会使用虚假的IP地址乃至“群控软件”或者“群控终端设备”来隐藏自己的真实身份和位置,从而绕过IP识别、封禁等反爬虫措施。这种技术路线可以使得攻击者的爬取行为难以被检测,从而长时间、大量地抓取数据,对服务器造成持续的压力。欺诈性访问不仅违反商业道德,同时也不合理地增加了被爬取方的技术成本。欺诈性访问的情况下,被爬取方一般都实施了合理的防护措施(如IP限制或访问频率限制),而爬取方通过技术手段规避这些措施,尤其是绕过服务器的保护机制,则其恶意性较为明显,且正当性更低。
超高频访问具有主观恶意性和严重的网络危害性,构成破坏性的爬取技术。高频访问是网络数据爬取的基本功能,但是超高频的访问可能导致拒绝服务攻击,表现结果就是网站负载过重而无法响应正常用户。例如,Midjourney在2024年7月发布公告,禁止Stability AI员工使用其软件,原因是Stability AI的数据收集工程师账户被指控大量爬取Midjourney的提示词和图像,导致服务器瘫痪24小时。又如,杨某破坏计算机信息系统案中,杨某指示张某等人利用改良后的“快某信贷系统”内的“网络爬虫”功能在当地居住证系统查询房屋信息。超高频访问虽然可以由被爬取方建立相关的警示规则进行限制,但是这种访问带有主观恶意和严重的网络危害性,无论被爬取方是否采取了阻碍的反爬取技术措施,都应当认定为非法访问。

(三)
规避性技术的正当性认定

规避性技术是指虽然通过技术手段绕过了目标网站的某些限制措施(如robots.txt文件、访问频率限制、IP限制等),但未直接导致网站服务性能下降、瘫痪或异常运行的技术,这就是《反不正当竞争法》第13条所说的“避开”技术管理措施。这类技术的核心特征是未对被爬取方造成明显的技术损害,且行为主要集中在绕过一些非强制性的技术障碍。例如,利用机器学习、OCR(光学字符识别)等技术来破解验证码,将爬取任务分配给多台计算机或服务器同时执行以大幅提高爬取速度和效率。行业中的多数网络数据爬取都属于规避性技术,可能是利用了网络运营者无意或者有意预留的访问漏洞。对于公开数据采取此类爬取技术一般不应当认定为刑事犯罪,其中涉及的法律问题主要是不正当竞争纠纷或者数据产权的权益保护限度问题。
规避性技术的正当性要结合数据产权的合理使用制度建设进行考虑。其一是考虑规避性技术所绕开的技术或者管理措施是否具有违法性。例如,robots.txt等文件并非强制性的法律约束,而是一种可以自定义的行业惯例。中国互联网协会早在2012年发布的《互联网搜索引擎服务自律公约》就提出:“互联网所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。”即Robots协议的有效性需要进行公平性审查,如果违反的是不公平、超过必要限度的Robots协议,则不具有违法性。其二是考虑规避性技术的获取范围和使用目的是否具有合理性。如果爬取方的数据获取范围较小,或者使用目的符合公共利益,则规避性技术的正当性较强。例如,学术研究中的数据采集在一定程度上获得了更高的法律宽容。其三是要考虑被爬取方的访问限制措施是否具有公平性。被爬取方站在实际控制者的一方具有多种多样的限制措施,这导致国内外的司法裁判在解释“未经授权的访问”时都倾向于认定网络数据爬取方属于“非法访问”。需要考虑国内外的新立法确立了个人数据可携带权、数据来源者的访问权等一系列权利,同时也要考虑到平台滥用数据、算法等设置限制措施可能构成新兴垄断行为,这些新立法将影响对“非经授权访问”的认定,司法机构应当结合这些法律依据判定被爬取方的访问限制措施是否具有公平性。
在前某简历数据案中,法院对规避性技术的正当性作了分析。该案中,用户在登录前某网站时,除需输入会员名、用户名和密码之外,还有图片验证机制,该机制系为防止爬虫机器人自动访问网站,而上海某信息科技有限公司通过技术手段绕开了验证程序或者使验证码效果丧失。法院认为,该项被控行为所实现的关联账号功能具有正当性,为实现这一目的可以通过技术手段绕开上诉人的验证程序,亦可以通过设置程序读取验证码。前者系破解上诉人所采取的技术措施,而后者则是通过机器读取验证码,上海逸某信息科技有限公司采取技术手段读取验证码并不属于破解技术措施。该案的启示意义在于揭示:在正当使用目的下,利用搭配合理的规避技术进行数据爬取,符合爬取技术的正当性认定标准。此外,在元某公司不正当竞争纠纷案中,元某公司使用爬虫通过更换IP地址、破解加密算法等技术方式爬取谷某公司的公交实时数据日均300万至400万条的行为,这种爬取频率超过该公司正常目的,属于非合理使用,相关的数据利用需求应该通过数据交易实现。
四、阶层三:数据用途的差异性
在考虑网络数据爬取对象、爬取技术可能存在正当性滞后,就可以实际取得相应的数据进行存储利用。但是,毕竟网络公开数据的合理使用基础是基于互联网开放的公共价值,基于此获取的公开数据在使用上必须进行限制,才能防止不合理的公器私用,维持公开数据的公益性目的。《网络数据安全管理条例》第18条要求使用自动化工具访问、收集网络数据时“应当评估对网络服务带来的影响”,这里的影响应当解释为爬取方式获取的数据利用行为是否对数据被爬取方构成“实质性替代”。从权利义务相一致的角度而言,通过网络数据爬取公开数据取得的权利是对原数据产权人的权利限制,这种权利限制不应当反过来鼓励其他人与其进行同质化竞争。为此,网络数据爬取之后取得的是有限制的数据权利,其主要考虑标准是用途构成差异性使用而不构成实质性替代。

(一)
实质性替代的认定标准

“实质性替代”标准在2021年8月发布的《反不正当竞争法司法解释(征求意见稿)》第26条及2022年11月发布的《反不正当竞争法(修订草案征求意见稿)》第18条中均有提及,其要求经营者不得“违反约定或者合理、正当的数据抓取协议,获取和使用他人商业数据,并足以实质性替代其他经营者提供的相关产品或者服务”。尽管该条款在最新的正式稿和征求意见稿中被予以删除,但“实质性替代”已经演变成国内外数据竞争案件最后阶段的争议焦点。“实质性替代”标准的出现源于对数据使用行为不正当性判断标准的补充。考虑到数据“弱竞争性”特征,爬取方对数据的使用一般不会减少或损害相关数据的价值。数据市场的实质性替代应当从两个方面综合考虑,一是考虑数据产品本身是否具有替代性,二是考虑相关消费者或者交易相对人是否存在显著流失。这两个维度往往是相互影响的。
典型的实质性替代是以创造竞争产品为目的,在未经授权的情况下搬用竞争对手的数据。例如,抖某诉刷某案中,法院认为被告整体搬运抖某平台的视频文件、评论内容数据于刷某App使用构成实质性替代。在微某诉今某移植案中,法院认为:抖某公司将首发于微某平台的内容“移植”至今某平台,除了“@”“#”、表情等要素因平台功能不兼容而未能被充分展现外,其余的主要内容均与原内容一致。并且,89%以上的涉案内容在首次发布的30分钟甚至1分钟以内被“移植”至今某平台,仍保有较强的时效性,这削弱了微某公司的竞争优势。在微某明星数据案中,法院认为:复某公司抓取这些微某平台账号数据并较为完整地展示在饭某App的微某专题中,使得饭某App用户无需注册或登录微某平台账号即可查看微某平台全部内容,显然构成实质性替代。上述案件都是直接竞争对手之间出现的典型实质性替代行为。需要注意的是,不能因为有直接竞争关系,就推断双方的竞争是不正当的,因为直接竞争的当事人相互之间也有合理使用权利和必要容忍义务;也不能因为有损害结果就反推出数据爬取行为构成不正当竞争,因为正当的竞争同样会造成竞争对手的损害。所以,既要从对爬取方的“实质性替代”情况来看,也要从爬取方的“转化性使用”情况来看,综合考虑双方的正当利益和有效损失作出判定。
在部分案件中,网络数据的爬取方经常以双方之间不存在“竞争关系”来为自己的差异化使用行为辩护。随着我国数据基础制度引入“持有权、使用权、经营权”为内涵的数据产权制度,网络数据被爬取方可能基于其对平台数据享有产权而非基于“竞争利益”来对抗转化性的数据使用行为。尽管数据在互联网流转过程中通常由多个不同主体共同作用或参与,普遍涉及个人信息权益、企业利益、公共利益等多种利益平衡问题。浙江省杭州市中级人民法院在微某群控软件案判决中强调“网络平台中的数据,以数据资源整体与单一数据个体划分,网络平台方所享有的是不同的数据权益”。北京知识产权法院在抖某视频、评论数据案中认为,“涉案抖某平台上短视频的整体,及其与用户信息、用户评论组合而成的数据集合,是微某公司通过收集、储存、加工、传输等实质性投资而形成的利益”。这些判决实际上创造出了“平台整体数据权益”和“用户单一数据权益”平行享有的规则,也即双方分别对数据相应权益并互不影响。
本文认为即便网络数据的爬取方和被爬取方之间不存在竞争关系,在数据产权规则下也有必要引入“实质性替代”的判定标准。网络数据爬取方通过正当的技术对公开数据的合理爬取,不能对被爬取方构成实质性替代,否则可以在不实质性替代被爬取方权益的情况下取得数据产权。在比较法上,《欧洲数据法案》在创设“数据访问权”的同时,也在第4条第10款指出,“用户不得将根据数据访问权所请求获得的数据用于开发与数据来源的互联产品相竞争的互联产品”,对于差异化的创新产品和服务品质竞争则是鼓励的。此外,“实质性替代”本质上是以“实际损害情况”为衡量尺度的事后判断标准,这里的“实质”是课以被爬取方对他人合理使用公开数据的容忍义务。相互容忍是近现代工业化大生产的主流趋势,以此适应人类群居、设施共用的工业时代,为了避免绝对的财产权保护对工业发展造成阻碍,《德国民法典》第906条第1款就规定,土地的所有者对来自另一土地的不可量物侵入,在不妨害土地使用或妨害不显著时需予容忍,妨害是否显著应结合“理性的普通人”在具体情形下的合理期待作出判断。互联网自产生之初即存在自由开放的传统,通常连接互联网的计算机默认对所有人开放,允许他人自由访问其内部资源,如果他人访问行为对计算机系统的使用未造成妨害或妨害并不显著,所有者应负容忍义务。所以,“实质性替代”是平衡保护数据爬取方和被爬取方的一个公平规则。

(二)
搜索引擎不构成实质性替代

搜索引擎广泛使用网络数据爬取技术,对公开数据进行广泛的抓取,并将结果存储在索引数据库中,以便用户快速检索,发挥中心化信息管理员或者互联网信息传播中介的角色。国内外的司法案例在网络数据爬取合法性上最大的共识就是搜索引擎所使用的网络数据爬取对于被爬取方不构成侵权。例如,北京市高级人民法院在百某公司与奇某公司的纠纷判决书中指出,百某公司在缺乏合理、正当理由的情况下,以对网络搜索引擎经营主体区别对待的方式,限制奇某公司的搜索引擎抓取其相关网站网页内容,影响该通用搜索引擎的正常运行,损害了奇某公司的合法权益和相关消费者的利益,妨碍了正常的互联网竞争秩序,违反公平竞争原则,且违反诚实信用原则和公认的商业道德,因而具有不正当性,不制止不足以维护公平竞争的秩序。基于比较法的视野,在Kelly诉Arriba Soft Corporation案件中,美国联邦第九巡回上诉法院认为,图像搜索引擎在其搜索结果中显示图像缩略图副本构成合理使用。这些案件的背后逻辑都认为,搜索引擎的核心功能是索引和组织网络信息,帮助用户快速找到所需内容。
搜索引擎使用网络数据爬取的正当性是在公共利益和私人利益共同考量下作出的结论。从公共利益角度来看,搜索引擎的网络数据爬取促进了知识的传播和信息的获取,提升了信息的可获取性和透明度,从而提升了社会的整体福祉。从私人利益角度来看,搜索引擎的爬取行为更多是为了生成索引而非复制和替代原有内容;同时,搜索引擎通常以链接形式提供访问,而非直接提供原文,这表明其行为是辅助性质,不构成实质性替代。相反,如果搜索引擎爬取内容后,直接在自己的平台上展示这些内容,而不引导用户跳转到原网站,就可能构成实质性替代。在生成式人工智能产品的网络数据爬取案件中,人工智能产品将其作为“搜索引擎”的替代品来进行抗辩已引起相关讨论。

(三)
转化性使用不构成实质性替代

“实质性替代”的对立面是“转化性使用”,这是美国联邦最高法院案件在解释著作权法中的“合理使用”规则时所提出的概念,其对“转化性使用”的解释为“使用是否增添了新的表达、意义或信息,或者仅仅是对原作品的替代”?也即,“转化性使用”与“实质性替代”是相悖的两个概念。例如,人工智能系统使用数据的目的是学习非表达性元素,这种使用可以视为是转化性的,因为它没有替代原作品的表达性价值,而是为了实现完全不同的功能。从这种视角来看,大多数机器学习系统使用受版权保护内容进行训练,应被视为具有“转化性”的合理使用。
如果将公开数据爬取后进行加工创造后再发布,则需要考虑相关数据的结构、内容或者使用方式是否具有本质性差别。这种差别的比较节点对于认定“转化性使用”至关重要,“起始节点”是公开数据在被爬取方网站上所呈现的基础结构,“结果节点”应当将爬取方对外提供该数据及其衍生数据作为比较对象,而网络数据爬取仅仅属于一种“中间访问”过程。“中间访问”源于著作权的“中间复制”,又称“过程性复制”“必要的复制”“临时复制”,旨在以非表达性的方式使用复制作品,并在交易数量巨大的情况下,为降低交易成本采取“先使用但著作权人可选择退出”的机制。数据爬取情况下的处理行为往往是进行数据挖掘的前期步骤,最终目的是差异化地创造新产品、新服务,这类“中间访问”可以参照颠覆式创新(也称破坏式创新)的理念提供必要的包容性。
数据之所以成为数字经济核心,就在于其颠覆式结构再造的潜能,具有破坏式创新的潜力。破坏式创新在欧盟的竞争法中经常出现,其强调的是转化性使用。例如,欧盟的数据库权利的目的就是鼓励投资者创建和维护数据库,阻止由盲目模仿引起的不正当竞争侵权行为,以促进信息的利用和共享。如果将创造新数据的投资也纳入保护范围,可能会限制他人对已创造数据的使用,对信息的流通和共享产生不利影响。欧盟法院总法律顾问在其意见中详细指出:网络数据爬取的对象包括传统版权数据和新兴的数据库权利,网站运营者对其原创的内容受到著作权保护而禁止任何未经授权的复制/爬取行为;对于非原创型的平台数据或者他人数据,平台拥有阻止他人爬取该数据以搭便车创造同类竞品的权利,但是不能阻止他人开拓创新产品的权利,否则构成滥用支配地位。这种理念将是公开数据爬取案件需要不断深化的一个认识,只有这样才能发挥数据的可复制性、非竞争性等优势。
我国也有一些适用“转化性使用”规则的数据爬取案件。在前某简历数据案中,法院认为,关联账号功能可以使经营者“一站式”地处理所有网站收集的招聘简历,而不用分别登录不同网站进行处理,显然该技术可以提高工作效率,给市场主体带来便利。互联网市场领域的各种产品或者服务关联性和依附性在不断加深,依赖甚至介入其他经营者的产品或服务而开展经营活动本身并不会损害正常的市场秩序,相反以此而否定该行为的正当性,无疑将会挫伤创新动力。该案体现了汇聚多方数据源的爬取特征,其对网络数据的高效利用本身就具有显著创新性。
结语
网络数据爬取将是人们利用智能体获取信息的主流方式之一。例如,智能城市管理系统可以通过网络爬取城市监控数据、交通数据,实现自动化的交通调度和环境监测;医疗系统通过爬取健康数据和医学研究信息,为医生和患者提供个性化的诊疗方案;金融系统可以通过网络爬虫实时抓取市场数据,进行风险分析并自动调整投资组合;电商系统能够根据用户偏好从各个购物平台抓取信息,推荐最优的购物选择。如果按照传统的财产利用来管理数据爬取行为,必将陷入权益保护与数据流通利用规律严重脱节的问题。因此,有必要立足数字空间、构建数字身份、呈现数字交往,进而生成数字利益,创造数字经济形态和数字社会秩序。互联网如同一张浩瀚无垠的信息之网,网络爬虫则扮演在这张网上自动游走、捕捉信息的角色。网络数据爬取本质上是面向公开网络数据流通的一个重大政策决断问题。世界上大多数网络流量来源于自动化机器人。在未来的数据基础制度建设和相关司法裁判中,有必要肯定网络数据爬取默认是获取数据的一种正当方式,只有被爬取方能够证明爬取超过合理范围、合理方式的行为才被否定。
当前的网络数据爬取规则呈现出碎片化,难以有效规制不法爬虫、引导正当爬虫的使用。司法机关的保守立场倾向于将网络数据爬取行为的所有方面都认定为侵权违法,甚至这种方式无法为数据爬取实践提供清晰、可负担的指引;这可能会将公开数据的错误归入非公开数据,对企业之间的正当技术攻防行为进行过度的干预,将合理的转化性使用数据认定为不正当竞争,导致技术人员认为法律与技术实际情况严重脱节,进而使正当合理的数据爬取秩序无法建立,各种灰黑产的数据爬取行为者大行其道,最终损害的是整个数据流通交易市场的发展。采取三阶段的分析思路,能够将纷繁复杂的裁判考虑因素都整合为三阶层认定标准,数据爬取方只有通过前期步骤审查才有继续往下评判的必要,从流程上独立地对三项标准进行依次评价,可为合法的网络数据爬取行为提供行为边界指引,同时为被爬取方采取有效措施防止非法爬取提供指引。以数据被爬取方的立场来看,最安全可控的措施首先是将意图限制流通的数据作为“非公开数据”进行保护,其次是采取有效的技术措施对抗相关方的爬取行为;对于网络服务器压力存在担忧的公共数据运营者则应当主动地提供数据集或者API访问接口。作为保护被爬取方的最后手段,“实质性替代”标准可维护公平竞争秩序不被肆意破坏。

往期精彩回顾
谭清值|备案审查制度基本功能的成熟度:标尺与方法
马春晓|论行政犯的行刑反向衔接
毛逸潇|金融犯罪外围式立法的危机与应对
目录|《东方法学》2025年第4期(数字化专刊3)
雷磊|完美的效率还是负责任的正义?——大语言模型时代数字司法的价值反思
白云锋|数字体行政组织法地位的审查框架

上海市法学会官网
http://www.sls.org.cn