爬虫知识点丨“爬虫”的13条合规边界_业界动态_资讯

爬虫知识点丨“爬虫”的13条合规边界

2024-12-29 22:26 浏览:88

文章目录

- 01 啥是爬虫
- 02 爬虫本无罪！
- 03 爬虫的行为边界
- 04 爬虫的内容边界
- 05 结语：做个清单吧

01 啥是爬虫

嗯！今天聊爬虫~

爬虫，或者更严谨一点，网络爬虫(Web Crawler/Spider)，通常是指按照一定的规则自动浏览和抓取互联网信息的程序或脚本，它可以通过自动向网站发送系列特定检索指令实现对网站内系列网页信息的浏览和收集。

从类型上来看，爬虫常见的分类包括通用爬虫、聚焦网络爬虫、增量式爬虫。

通用爬虫：搜索引擎获取信息的关键性技术之一就是通用爬虫，搜索引擎利用爬虫技术在网页间建立系统性关联，通过对网页信息的系统性获取，建立起针对这些网页内容的搜索服务；
聚焦爬虫：如果需要在特定网页深度获取特定信息(如某网站的产品种类、商品信息、价格信息、评论信息等特定内容)，则对于此类应用场景需要编写在网页内获取特定信息的爬虫程序，这类爬虫就是所谓的聚焦网络爬虫；
增量式爬虫：增量式爬虫的主要功能是实时监测网站数据更新，判断网站是否有变化，从而爬取网站中最新更新出来的数据。

所以简单总结一下，爬虫其实就是一个程序化的自动看网页和找信息的小工具，是一个技术上完全中立的小工具。

02 爬虫本无罪！

既然只是一个自动浏览网页和收集信息的小工具，爬虫自己能有什么坏心眼呢~

的确如此！作为一个技术上完全中立的小工具，爬虫真的没有什么所谓的“原罪”。

“善意爬虫”在遵守网站的机器人协议(robots.txt)的前提下，对网页或网络公开接口进行爬取并不会影响网站正常运行、不会侵犯网站用户的个人信息和网站的重要数据资源的(如大型搜索引擎运用的通用网络爬虫)，还会因为给相关网站增加流量并因此而受到欢迎。

爬虫知识点丨“爬虫”的13条合规边界

所以，这是我们在后面讨论爬虫的各种风险之前，一定要先给爬虫做的一个澄清：

爬虫无罪！！！

即使它光是看名字就给人感觉“坏坏的”，并且关于它“干了很多坏事儿”的传闻也不绝于耳，我们还是要开宗明义地说，爬虫只是一个无毒无害的小工具，并没有任何原生的合规风险。

那为啥爬虫还是屡屡惹麻烦？这其实因为它经常被基于错误的方式用于爬取错误的内容。

这也就是爬虫风险的两大核心来源：

使用爬虫的方法不对。常见的表现就是爬得过于“粗暴”和“野蛮”，突破了被爬取对象允许的爬取范围，或者直接对被爬取对象的系统造成了影响或破坏。通过总结这一类风险，我们就能勾勒出“爬虫的行为边界”；
爬虫抓取的内容不对。这种情况就是爬虫抓取了不妥当的信息。不管是商业秘密也好、知识产权也好、个人信息也好，总之就是抓取的内容不对劲，侵权了。通过总结这一类风险，我们就能勾勒出“爬虫的内容边界”。

好了，至此，我们已经把理解和分析爬虫法律风险的全部方法论展示出来了。

沿着“行为”和“内容”两条主线，我们就能清晰地把爬虫合规的13条边界清晰地勾勒给大家。

03 爬虫的行为边界

对于爬虫的行为边界，通常可以从被爬取网站的属性、爬虫所采用的技术手段、爬虫行为的实现方式，以及使用爬虫所造成的影响等角度来综合判断，为此我们总结了如下七条合规边界。

总体而言，如果爬虫使用方通过正当的爬虫软件，遵守robots协议，不采用暴力破解、规避绕取等方式破坏计算机信息系统对其进行合理范围和数量内的访问，那么从行为角度就基本可以确保不会导致严重合规风险。

简单拆解一下，对于第（一）、（二）项评估内容，主要是从被访问或爬取的目标网站属性来看的，由于此类计算机信息系统、关键信息基础设施比较敏感，因此如果利用爬虫不正当访问涉及国家事务、国防建设、尖端科学技术领域的计算机信息系统，可能涉嫌构成《刑法》第285条第1款规定的“非法侵入计算机信息系统罪”；而利用爬虫不正当访问国家关键信息基础设施，可能违反《关键信息基础设施安全保护条例》的相关规定，视情况而定也可能构成《刑法》第285条第2款规定的“非法获取计算机信息系统数据罪”、“非法控制计算机信息系统罪”。

为此，在拟对此类敏感的系统或设施进行数据爬取时，建议进行充分的事前进行评估，例如是否采用技术手段破坏了对方的防护措施从而进入系统、是否取得了对方的授权进入计算机信息系统、在取得授权的情况下是否超出了对方的授权范围进入系统等。
（具体请见下图分析，点击可查看高清大图）

嗯，继续下去。

对于第（三）、（四）、（五）项评估内容，更多是从使用爬虫时所采用的技术手段与造成的影响来判断。

在实践中，如果采取爬虫方式或其他手段突破、绕过、破解目标网站的防护机制，或者通过“直接破解”网站设置的身份验证机制等反爬机制以达到跳过验证步骤直接进入系统爬取数据的目的，那么可能被认定为实施了“侵入行为”或采取了相应的技术手段。

此外，如果相关爬取行为导致对目标系统的使用权、控制权进行了剥夺（例如未经授权或超越授权控制相关系统），使原运营者不能按照自己的意志使用、控制计算机信息系统，也可能构成“非法控制”，需要结合目标网站具体采用了何种防护机制、爬取方采取了哪些突破措施予以判断。

而且从使用爬虫所造成影响或后果来看，如果对被爬取的网站系统功能进行了删除、修改、增加、干扰并导致不能正常运行，或者对其中的数据进行了删除、修改、增加的操作，或者干扰了被爬取网站的正常功能或服务（例如爬虫流量对目标网站的运行带来了巨大的负担），也容易带来相应的合规风险。
（具体请见下图分析，点击可查看高清大图）

最后，对于第（六）、（七）项内容，主要是从爬虫的实现方式来进行评估，robots协议、网站协议或声明在目前被广泛使用，因此“是否违反robots协议、网站协议或声明”也是对爬取行为是否存在潜在风险的重要判断依据。

由于目前我国法律法规并没有对robots协议的法律属性进行规定，而且robots协议也不具有强制禁止访问的技术能力，因此它更像是一份“君子协定”或者“道德约束”，如果爬虫不愿意遵守robots协议，从技术上仍然可以爬取那些robots协议规定不允许爬取的内容。

在司法实践中，司法机关不会以仅仅违反robots协议的这一事实而判定爬虫使用方承担法律责任，但仍有必要将robots协议作为判断行为正当性的重要参考标准。

因此，在爬虫使用的目的正当、仅用于内部、且爬取信息的数量均有限的情况下，实际的不利后果可能只是被目标网站查封IP，但若爬虫使用方违反robots协议、恣意抓取目标网站上的数据内容，也可能面临相应行政或民事责任。而对于网站的用户协议或声明而言，如果爬虫使用方违反该等约定，可能构成民事层面的违约或存在侵权风险，在个案中爬虫使用方是否违反此类网站协议或声明，也同样会成为司法机关裁断其行为正当性的重要参考依据。
（具体请见下图分析，点击可查看高清大图）

04 爬虫的内容边界

对于爬虫的内容边界，同样也可以从所爬取内容的正当性、敏感程度、数据或信息的类型、知识产权归属、用途等角度来综合判断，为此我们总结了如下六条合规边界。

具体来说：

第（一）项：从爬取内容的公开程度来看，如果拟爬取的数据属于公开数据或公开信息，则在一定程度上可以表明数据爬取行为具有操作空间，如果属于非公开数据，则需要进一步谨慎评估。因为“非公开数据”意味着数据持有者对数据的“不开放”态度，未经数据持有者同意或授权的抓取行为具有不正当性。采用爬虫技术拟爬取的内容或数据通常涉及政府数据、企业数据、个人信息数据等类型，但其属于“公开数据”还是“非公开数据”，在法规层面并无统一、明确的规定。在司法实践中，法院可能会基于网站或平台对于权限设置与数据的可访问性将相关数据分为公开数据与非公开数据。
第（二）、（三）项：从爬取内容的敏感程度来看，如果爬取的数据或信息涉及国家秘密、商业秘密，则可能涉嫌《刑法》第282条规定的国家秘密相关犯罪、第219条规定的侵犯商业秘密罪以及不正当竞争行为。
第（四）项：从爬取内容的类型来看，如果爬取个人信息且无相应的合法性基础，则可能侵犯个人信息主体的权利。因此，爬取个人信息时应满足个人信息处理的相关合规要求，需要先根据业务实际情况梳理涉及的个人信息类型、数量、用途和目的等事实情况，再基于对事实情况的梳理，进一步分析判断该等爬取场景下对具体个人信息字段进行收集处理是否具备合法性基础，否则对于此类个人信息处理活动，需要以取得用户的同意为前提（如果是敏感个人信息应取得单独同意），并相应履行告知义务。
第（五）项：从爬取内容的知识产权归属来看，如果爬取他人拥有著作权的内容并进行商用，则可能涉嫌侵犯知识产权。例如，通过爬虫技术爬取网站信息(包括文字、图片、视频、音频等)，因其具有一定的知识产权归属，一方面不应故意避开或者破坏目标网站采取的技术措施；另一方面需要确保不存在《著作权法》第52条、第53条规定的侵权行为。当然，我们理解爬取此类著作权内容并非被完全禁止，在爬虫措施合理正当、不对爬取内容进行后续商用或对其进行出版、表演、公开传送、网络传播等情况下，实际承担责任的可能性不大，可以在个案中结合实际情况判断本项的侵权/违规风险，无需严格进行“一刀切”。
第（六）项：从爬取内容的后续用途来看，如果爬取目标网站的数据并进行商用，还可能被认定为存在不正当竞争行为。企业对于数据信息享有合法权益并应受到保护的观点，在我国司法实践中已越来越多地被认可，如果对于爬取的目标网站数据使用行为实质性地替代了目标网站所提供的服务，则该爬取方被认定为违背商业道德、获取数据资源进而导致行为不正当性的可能性较大。
其他想说的，都在下面的图里了↓。

05 结语：做个清单吧

说一千道一万，在碰到爬虫相关的问题需要评估时，我们应该如何入手？

我们的建议是：逐案进行审查。

怎么操作呢，建议对照我们上面的内容，做两张清单吧。

第一张清单里，可以请需求侧填写爬虫事项的具体事实信息，以供法律合规部门进行评估。
第二张清单里，就需要做一个风险等级汇总，根据机构自身的合规水位制定“红线事项”和“风险事项”，判断具体的个案是不是有操作空间。

当然啦，最后还是想说，在开展与爬虫有关的实务分析时，其实还存在许多“细枝末节”的痛点问题，例如反爬措施包括哪些？RPA技术是否算数据爬取？通过拟人方式爬虫是否违规？网站没有robots协议也未设置反爬措施能否爬取？“半公开数据”如何界定？爬取数量和规模如何限制？明知合作方提供的数据是爬取所得能否继续使用？仅提供爬虫技术工具是否合法等等等等。

-END-

▍学习资源推荐

零基础Python学习资源介绍

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末

资料领取

以上就是本篇文章【爬虫知识点丨“爬虫”的13条合规边界】的全部内容了，欢迎阅览！文章地址：http://w.yusign.com/news/7362.html
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页述古往 http://w.yusign.com/mobile/ , 查看更多