当前位置: 首页 > news >正文

爬虫是否违法

爬虫是否违法

关注的焦点:

我们需要明确的一点是并非是爬虫这种“技术”是否合法,而是使用爬虫获取数据的“行为”是否合法。

前言:

9月份参加一个某银行的数据相关岗位面试的时候,面试官直接问道:你之前的实习经历中有一段这个爬虫实习生的经历,能简单的说一下你对这个爬虫数据的看法,当时回答技术肯定没有问题的,想要防止数据不被非法利用,一方面是通过加强相关的反爬虫技术,但是道高一尺魔高一丈只要是技术都会有被攻破的一天,这个不是长久之计,计算机相关的法律还不够完善,需要相关人士去推动,需要的是整个计算机信息安全领域的法律的完善,相关人员的职业道德素质的提升。

技术无罪:

  1. 技术是无罪的,技术本身确实是没有对错的,但使用技术的人是有对错的,公司或者程序员如果明知使用其技术是非法的,那么公司或者人就需要为之付出代价。爬虫本身并不违法,而是看你使用的方式和目的,还要看是不是商业用途。
  2. 最近也出了一个新闻:只因写了一段爬虫,公司200多人被抓,就是下图巧达科技。
    在这里插入图片描述
  3. 导致这次事件的起因,公司工程师写的爬虫代码将对方的服务搞挂了(这就构成了了“破坏计算机信息系统罪”)
  4. 在今年国家颁布《中华人民共和国网络安全法》之后,很多以前处于灰色地带的业务都不能做了。
    最新的安全法强调:贩卖个人信息超过50条属于“情节严重”,需要追求其法律责任。还有很多涉及版权信息的网站,比如书籍、影视剧、课程等后期也会面临越来越严格的审查,这就是目前大的形势。
    2014年12月20日,人人影视字幕站发布微博称,人人影视正式关闭,并表示或将继续为正版商提供翻译服务,也可能转变为讨论社区的形式。
    2019年6月,吾爱破解因版权问题关站整改…

什么样的爬虫是非法的:

  1. 爬虫不能涉及个人隐私
  2. 如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。也就是说你爬虫爬取信息没有问题,但不能涉及到个人的隐私问题,如果涉及了并且通过非法途径收益了,那肯定是违法行为。
  3. 下列三种情况,爬虫有可能违法,严重甚至构成犯罪:
    1.爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。
    2.爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”
    3.爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。

现在网上有很多付费的课程,比如极客时间、Gitchat、慕课网、知识星球等等,这些付费内部信息如果被非法爬取手法出售获利,一种违法行为。

什么样的爬虫合法

  1. 遵守 Robots 协议
    Robots 协议也叫 robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。
    Robots 协议就是告诉爬虫,哪些信息是可以爬取,哪些信息不能被爬取,严格按照 Robots 协议 爬取网站相关信息一般不会出现太大问题。
  2. 不能造成对方服务器瘫痪
    但不是说只要遵守 Robots 协议的爬虫就没有问题,还涉及到两个因素,第一不能大规模爬虫导致对方服务器瘫痪,这等于网络攻击。
    2019年05月28日国家网信办发布的《数据安全管理办法(征求意见稿)》中,拟通过行政法规的形式,对爬虫的使用进行限制:
    网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。
  3. 爬虫不能涉及个人隐私
    恶意利用爬虫技术抓取数据,攫取不正当竞争的优势,甚至是牟取不法利益的,则可能触犯法律。实践中,非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少,大多是以不正当竞争为由提请诉讼。
    举个例子,如果你把大众点评上的所有公开信息都抓取了下来,自己复制了一个一模一样的网站,并且还通过这个网站获取了大量的利润,这样也是有问题的。
    一般情况下,爬虫都是为了企业获利的,因此需要爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。

最后:

绝大多数公司和个人使用的爬虫都是没有问题的,只要不要爬取个人信息,不利用爬虫非法获利,不要爬取网站的付费内容,基本问题不大。

相关文章:

  • Mac安装VScode运行C语言
  • 基于AP的课堂辅助教学系统Web端
  • 基于AP的课堂辅助教学系统Android端
  • 基于AP的课堂辅助教学系统iOS端
  • Mac安装使用Clion运行C
  • C语言编译过程详解
  • Clion编写第一个C程序
  • C语言输入一串数据到数组中,用空格隔开回车结束
  • C语言-判断字符串b的所有字符是否都在字符串a中出现过
  • C语言:判断A+B和C的关系
  • PV、UV、VV、IP的区别
  • C语言中输入函数(scanf()、fgets()和gets())的区别详解
  • c语言中getchar()
  • C语言-static的作用
  • C语言-2019年九1
  • JS 中的深拷贝与浅拷贝
  • 【391天】每日项目总结系列128(2018.03.03)
  • Apache的基本使用
  • js ES6 求数组的交集,并集,还有差集
  • MySQL几个简单SQL的优化
  • Phpstorm怎样批量删除空行?
  • storm drpc实例
  • 记录一下第一次使用npm
  • 猫头鹰的深夜翻译:Java 2D Graphics, 简单的仿射变换
  • 那些年我们用过的显示性能指标
  • 前端学习笔记之原型——一张图说明`prototype`和`__proto__`的区别
  • 手写双向链表LinkedList的几个常用功能
  • 想使用 MongoDB ,你应该了解这8个方面!
  • 白色的风信子
  • ​​​​​​​​​​​​​​汽车网络信息安全分析方法论
  • # Swust 12th acm 邀请赛# [ E ] 01 String [题解]
  • # 计算机视觉入门
  • ###C语言程序设计-----C语言学习(6)#
  • $(function(){})与(function($){....})(jQuery)的区别
  • $Django python中使用redis, django中使用(封装了),redis开启事务(管道)
  • (1/2)敏捷实践指南 Agile Practice Guide ([美] Project Management institute 著)
  • (3)llvm ir转换过程
  • (非本人原创)我们工作到底是为了什么?​——HP大中华区总裁孙振耀退休感言(r4笔记第60天)...
  • (附源码)计算机毕业设计ssm高校《大学语文》课程作业在线管理系统
  • (附源码)计算机毕业设计SSM教师教学质量评价系统
  • (汇总)os模块以及shutil模块对文件的操作
  • (论文阅读30/100)Convolutional Pose Machines
  • (深入.Net平台的软件系统分层开发).第一章.上机练习.20170424
  • (续)使用Django搭建一个完整的项目(Centos7+Nginx)
  • (转)从零实现3D图像引擎:(8)参数化直线与3D平面函数库
  • **PHP分步表单提交思路(分页表单提交)
  • .net core 调用c dll_用C++生成一个简单的DLL文件VS2008
  • .net framework4与其client profile版本的区别
  • .net 开发怎么实现前后端分离_前后端分离:分离式开发和一体式发布
  • .NET 中各种混淆(Obfuscation)的含义、原理、实际效果和不同级别的差异(使用 SmartAssembly)
  • .net分布式压力测试工具(Beetle.DT)
  • .net项目IIS、VS 附加进程调试
  • .Net小白的大学四年,内含面经
  • .NET中 MVC 工厂模式浅析
  • .stream().map与.stream().flatMap的使用