创新是引领发展的第一动力。习近平总书记多次指出,保护知识产权就是保护创新。著作权是最主要的知识产权之一,加强著作权保护是对创新精神的最有效鼓励。近年来,我国在立法与司法层面不断强化对著作权的全面保护,从严打击侵犯著作权犯罪行为,始终保持对侵犯著作权犯罪的高压态势。互联网环境下,网络犯罪手段不断翻陈出新,以网络爬虫技术手段侵犯著作权犯罪具有社会影响广、侵权作品多、违法数额大等诸多特点,在涉案作品种类和数量众多且权利人分散的情况下,如何有效证明行为人非法复制涉案作品行为构成侵犯著作权罪,这给司法机关提出了新的挑战。
(一)网络爬虫的技术基础
网络爬虫(Web Crawler/Spider)是指按照人工编写的规则和指令,能够自动从互联网中抓取有关信息的程序或脚本代码,本质上是由机器模仿人的行为抓取数据的工具①。网络上的HTML文档是使用超链接连接起来的,就像编织起来的一张网,网络爬虫就是依靠网页链接地址来实现的,从某个网站开始,每到一个网页就用抓取程序把这个网页抓下来并进行读取,从中获取相关的链接地址,同时利用获取的链接地址再找到其他的网页链接地址,在整个遍历过程中,就可以将所需要全部抓取到②。简而言之,网络爬虫技术就是根据设计者的目标所建立的规则,按照这种规则快速大量的爬取网页URL去搜集爬取规则所指向的目标数据,是一种高效的数据抓取技术③。网络爬虫是大数据时代的产物,已经成为网络信息搜集与利用的重要信息技术工具,几乎所有网络用户都直接或间接利用过网络爬虫所提供的信息资源。
目前,网络爬虫在搜索引擎、舆情分析、大数据挖掘、违法行为监测、犯罪预测、暗网探知等领域所发挥的积极作用已受到法学界的关注和肯定,甚至直接为政府部门的文件所支持。例如,《文化部关于全国文化市场技术监管与服务平台建设的实施意见》(文市发〔2013〕11号)明确要求“采取网络爬虫、数字水印等数字识别和物联网技术手段,对违法违规的网络游戏、网络音乐、网络动漫等经营行为进行实时动态监测和主动防范”。
(二)网络爬虫的类型区分
业界对网络爬虫的认知可以分为狭义与广义两种理解方式:狭义的“网络爬虫”仅仅是自动化的数据抓取程序,广义的“网络爬虫”则还包括抓取数据过程中突破反爬机制的技术手段,包括但不限于验证码的自动识别(反向图灵测试)、数据解密、代理IP池、模拟浏览器访问、伪造用户代理、JS逆向解析等④。根据是否遵守Robots协议,可将爬虫分为善意爬虫(Goodwill Crawler)与恶意爬虫(Malicious Crawler)。Robots协议也可以称作爬虫协议,其是设置在网页中的通行关卡,用于检测访问者是否符合要求。常见的搜索引擎中的爬虫也就是善意爬虫,遵守网络中的规则;相对的就是恶意爬虫,不遵守Robots协议,对网站中的深层次的、不愿意公开的信息随意爬取,或者短期内多重访问,使服务器瘫痪,他人无法访问,导致网络经营者的损失⑤。恶意爬虫的负面影响逐渐凸显,在突破反爬机制后,爬虫所取得的数据有可能大规模侵犯著作权、商业秘密、个人信息或个人隐私等权益,甚至非法侵入内网获取政府工作秘密,恶意爬虫成为实施违法犯罪活动的重要技术推手。
(三)网络爬虫的技术异变
随着信息技术的发展,网络著作权成为著作权的一种重要表现形式。作者将作品发布至网络上,对于该作品的权利范围应当延及网络空间。著作权法所保护的客体为作品,网络世界中的数字式作品和数字化作品均承载着创作者的思想,表达方式的独创性受到著作权法的保护。网络环境下的著作权侵权行为往往具有隐匿性、复杂性、破坏性巨大等特点,网络著作权的刑法保护面临时代演进下的制度应变挑战。
随着犯罪方法的“升级”,利用网络爬虫实施的侵犯著作权犯罪案件出现了新的形式。单纯利用网络爬虫技术无法实现将作品“搬运”到移动APP以扩大用户量或者提高浏览速度的目的,“爬虫+转码”作为一个整体,成为犯罪的技术手段。本案中被告人卢甲、卢乙等人利用网络爬虫技术,在未经著作权人同意的情况下,从起点、磨铁、纵横中文网等各类小说网站上爬取热门小说,抓取完成后存储至OSS存储桶内并形成索引目录,再通过转码程序进行文本样式转码。被告人卢甲、卢乙等人先后开发黑X小说、月X全本小说、TXT免费书城等24个小说阅读类APP供用户访问、阅读、下载,通过赚取广告收入等方式牟取巨额非法利益。经查明,相关阅读类APP平台上线作品达2.4万余部,浏览章节总数达3.6亿余章节,通过广告收入谋取违法所得达1.35亿元。
根据刑法第二百一十七条规定,“未经著作权人许可”是侵犯著作权罪的构成要件之一,网络犯罪环境下涉案作品种类和数量众多且权利人分散,如何认定“未经著作权人许可”,成为审判实践中亟需解决的问题。
(一)证明要求:从复杂到简化
传统的侵犯著作权犯罪案件中,普遍观点认为应当以权利人举证的方式来证明“未经著作权人许可”,即侦查机关经过对权利人的调查取证,借助权利人陈述与相关书证,直接证明被告人复制作品的行为没有获得该权利人的授权,以此证明被告人复制作品的行为属于“未经著作权人许可”,从而达到确实充分的刑事证据标准⑥。以网络爬虫技术手段侵犯著作权犯罪通常具有侵权作品数量众多、著作权利人极为分散等特点,要求侦查机关对海量证据全面收集、逐一查证,不仅成本过高,也不符合客观实际。例如,本案中涉案作品达2.4万余部,被告人卢甲等人仅能证明对其中620部小说享有版权,且本案中仅有华著盛阅(天津)文化产业有限公司等少数著作权利人向公安机关报案。因而按照传统犯罪的证明要求,对全部涉案作品进行比对,查找被侵权人获得被害人陈述,以此证明被告人卢甲等人通过网络爬虫技术获取他人享有版权的作品属于“未经著作权人许可”,这在网络犯罪环境下难以实现。
为了有效破解网络犯罪中海量数据的“数量情节”证明难题,审判实践中逐步形成了抽样取证和等约计量等简化证明方法⑦。本案中,侦查机关委托中国版权保护中心版权鉴定委员会,依据科学的抽样方法,从被侵权单位拥有版权的1266部文字作品中抽取500部进行鉴定,鉴定作品的内容与各自对应的权利作品的对应内容基本相同,且均“未经著作权人许可”,并据此证明全体作品的侵权属性。同时,本案中辩护人提出被告人卢甲、卢乙等人的阅读类APP上架作品中有版权不明的书和自己享有版权的书,不能把阅读类APP产生的广告收入全部认定非法经营额,认定本案非法经营数额时应扣除这些书产生的收入,本案不能认定“情节特别严重”。对此,侦查机关将书籍抽样阅读情况、有版权书籍与被告人卢甲工作邮箱涉案APP“书籍”抽样阅读情况书籍比对报告证明可知,该620部有著作权的书籍中,浏览量为303267,为所统计总浏览量的0.08256%,占整个侵权作品数量及点击率的比重极低,产生的收入甚少,不影响本案“情节特别严重”的认定,以等约计量的简化证明方法破解了非法所得计算难题。
(二)证明方法:从推定到综合认定
“两高一部”《关于办理侵犯知识产权刑事案件适用法律若干问题的意见》第十一条第二款规定:“在涉案作品种类众多且权利人分散的案件中,上述证据确实难以一一取得,但有证据证明涉案复制品系非法出版、复制发行的,且出版者、复制发行者不能提供获得著作权人许可的相关证明材料的,可以认定为‘未经著作权人许可’。”有观点认为,上述司法解释的规定采取是一种推定的犯罪认定模式,如果基础事实与推定事实之间具有高度对应关系,且被告人反驳推定事实比较容易,那么控诉方在承担基础事实的证明责任后的合理推定,并不违背无罪推定原则⑧。具体到侵犯著作权犯罪案件中,一方面,检察机关从涉案作品系非法复制发行这一基础事实出发,证明了被告人复制作品未经著作权人许可的高度怀疑;另一方面,被告人对“未经著作权人许可”的反驳比较容易,如果复制行为合法可以提供著作权人许可的证明材料,否则可以认定推定事实成立。
综合认定作为一种常见的事实认定方法,当前作为一种简化证明方法被应用到网络犯罪案件中犯罪数额、主观方面的证明中。综合认定并未突破印证证明的基本要求,综合认定中的印证证明主要表现为证据对事实的整体印证,综合认定依据的主要是经验法则和日常逻辑⑨。本案中,法院从被告人卢甲、卢乙成立公司的主要目的是为实施侵犯著作权犯罪,公司主要活动是实施侵犯著作权犯罪,绝大部分收入来自侵犯著作权犯罪,在案被告人的一致供述,被害单位华著盛阅(天津)文化产业有限公司报案及多名证人的证言佐证,侦查机关提取收集并经勘验、检查、鉴定的涉案侵权作品信息数据、相关鉴定结论等客观证据直接印证,综合认定涉案作品“未经著作权人许可”,足以证实被告人卢甲、卢乙等人具有侵犯他人著作权并非法牟利的主观故意及客观行为,均已构成侵犯著作权罪。
(三)证明责任:从控方向辩方适当转移
举证责任的公平分配是实现诉讼公正的必然要求。刑事诉讼中通常由检察机关承担证明被告人有罪的证明责任,被告人不需要证明自己无罪,这是无罪推定原则的要求。然而在网络爬虫等新型技术手段侵犯知识产权犯罪中,单纯依赖控方的证明可能难以查清全部事实,由此可能带来惩罚犯罪不力、甚至放纵对知识产权的侵害等不良后果。“两高”《关于办理侵犯知识产权刑事案件具体应用法律若干问题的解释(三)》第二条第二项规定,在涉案作品、录音制品种类众多且权利人分散的案件中,有证据证明涉案复制品系非法出版、复制发行,且出版者、复制发行者不能提供获得著作权人、录音制作者许可的相关证据材料的,可以认定为刑法第二百一十七条规定的“未经著作权人许可”。上述规定要求被告人承担提供获得著作权人许可的相关证明材料的义务,事实上向辩方转移了部分证明责任。但是,此处被告人的证明责任是在检察机关承担举证责任的基础上,由被告人提供证据证明其主张,是辅助证明案件事实。网络犯罪中证明责任向辩方的适度转移,是在辩方更接近反证事实前提下的务实之举,实质上是为了更快查清案件事实。本案中,被告人卢甲、卢乙等除侵犯华著盛阅(天津)文化产业有限公司享有著作权的作品之外,还有数量众多且权利人分散的文字作品被复制并非法传播,且没有证据证明这些作品权利人放弃权利、涉案作品的著作权或者录音制品的有关权利不受我国著作权法保护、权利保护期限已经届满。
三、技术中立原则在侵犯著作权犯罪中的抗辩效力
本案中被告人卢甲、卢乙提出其实施的转码行为是否构成犯罪认识不清的辩解意见,言外之意即技术中立、技术无罪。对此,有观点认为,网络爬虫技术和网络爬虫行为并非同一概念,网络爬虫技术作为信息网络技术具有中立性,其本身并无好坏之分,更无讨论合法与非法的必要,而以网络爬虫技术为基础的网络爬虫行为体现着行为人的主观意志,更是受到市场环境和商业偏好的影响,便有善恶之别⑩。
网络爬虫行为的合法性需要满足三个限定条件,在对象限定上,合法的网络爬虫应限于对开放数据的获取,在手段限定上,合法的爬虫技术不应具有侵入性,在目的限定上,合法的数据爬取行为应当基于正当目的⑪。在侵犯著作权罪刑事案件中,网络爬虫的侵入性特征并不明显。具体来说,当前利用网络爬虫侵犯著作权罪之行为类型可以分为两类:一类是利用网络爬虫获取公开作品,发布在自己或其他特定网站供用户访问、阅读、下载;另一类是“爬虫+”案件,利用爬虫技术获取公开作品后再利用“转码”、“深度链接”等技术“复制发行”。单纯从网络爬虫所扮演的角色来看,在侵犯著作权罪案件中其获取的多数是公开数据,手段上也不具有侵入性,从数据获取行为并不能直接推断出其违法性。从规范的角度,应当从整体上判断利用爬虫获取数据的行为与侵犯著作权罪之“复制发行”构成要件的符合性,即无论是利用爬虫还是“爬虫+”技术,实质上符合“复制发行”他人作品之构成要件的,便构成侵犯著作权罪。这里的违法性评价是对行为整体的规范评价,不能简单地等同于网络爬虫的违法性。
数字经济时代,网络爬虫行为的法律边界需要兼顾网络平台、社会公众、行为人等三方面的利益,同时重点把握技术中立原则的适用范围,防止技术中立原则成为侵权行为的“保护伞”。应充分重视网络爬虫的技术特点以及该技术所蕴含的信息自由、数据经济以及技术创新等积极利益,需要根据现有刑法规范准确分析网络爬虫技术所涉及的刑事责任,在犯罪预防的基础上为网络爬虫技术的适用创造宽松的环境⑫。
注释:
1.冯艳茹:《基于Python的网络爬虫系统的设计与实现》,载《电脑与信息技术》2021年第6期。
2.冯艳茹:《基于Python的网络爬虫系统的设计与实现》,载《电脑与信息技术》2021年第6期。
3.URL是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。基本URL包含模式(或称协议)、服务器名(或IP地址)、路径和文件名。
4.苏宇:《网络爬虫的行政法规制》,载《政法论坛》2021年第6期。
5.陈园园:《“网络爬虫”著作权侵权问题研究》,载内蒙古科技大学2021年硕士学位论文,第9-10页。
6.参见朱海燕、冯宏声:《“未经著作权人许可”的司法认定》,载《检察日报》2009年6月16日,第03版。
7.参见刘品新:《网络犯罪证明简化论》,载《中国刑事法杂志》2017年第6期。
8.刘惠、王拓:《“未经著作权人许可”的理解与适用》,载《检察日报》2011年12月9日,第03版。
9.高通:《网络犯罪证明中的综合认定方法》,载《上海政法学院学报(法治论丛)》2023年第3期。
10.童云峰:《大数据时代网络爬虫行为刑法规制限度研究》,载《大连理工大学学报(社会科学版)》2022年第2期。
11.参见苏青:《网路爬虫的演变及其合法性限定》,载《比较法研究》2021年第3期。