当前位置: 首页 > news >正文

不用代理IP加快速度会被封吗?

 
 

  网络爬虫一定用代理IP吗?好多人认为网络爬虫必须要加代理IP,没了代理IP将无路可走;也有些人认为代理IP是非需要的。这是为什么呢?不能直接用采集工具吗?

 

  有人说,我用的采集器,用于收集一些其他网站的文章,随后筛选适用的做好加工即可,从来就没有用过代理IP,每天采集量一万篇上下。这没有代理IP照爬不误,因此网络爬虫不一定要用代理IP的。

 

  但也有人说,企业的日常任务1天要抓取几十万个网页,有时候任务多的时候1天要一百多万,爬着爬着IP就被封了,没有代理IP根本不成。没有代理ip,网络爬虫根被就是寸步难行,网络爬虫一定用代理IP。

 

网络爬虫一定用代理IP吗?不用代理IP加快速度会被封吗?

 

  其实,他们讲的都很有道理,都用亲身经历感受来证明了自己的观点。我觉得,爬虫程序从其本质上来说也是个浏览网页的用户而已,只不过是个不那么守规矩的独特用户,服务器通常很不欢迎这样的独特用户一直用各种各样手段发现和禁止。最普遍的就是判断你访问的频率,由于普通人访问网页的频率是不会很快的,假如发现某个ip访问的过快就会将此ip封禁。

 

  当业务量不是很大的时候,也就是第一位用户那样,还可以慢慢的爬,工作频率没有很快,在目标服务器来看还可以承受,不影响正常运转,那样就不会封IP,因此他可以不用代理IP完成每日的业务量。

 

  当业务量比较大的时候,比如第二位用户,1天十几万上百万的数据资料,慢慢地爬就完不成每日任务了,加快爬的话,目标服务器压力很大,就会封IP,一样完不成任务。那怎么办呢,只能用代理IP来解决了。

 

  举个栗子,1个IP短期内浏览100次,会被目标服务器认为浏览过快,造成IP被封,而采用10个代理IP短期内浏览10次的话,就不易被认为过快进而被封了。当业务量庞大的时候,采用代理IP往往可以事半功倍,这就是为何有觉得没有代理IP就没有网络爬虫的原因了。

 

  

转载于:https://www.cnblogs.com/xiniudaili/p/10220404.html

相关文章:

  • 基于zookeeper实现分布式锁
  • 微信小程序之----接口调用方式
  • django 的后台管理
  • Vue 目录
  • 蒟蒻的作文
  • PLC之六部十层电梯整体框架
  • js实现数组去重的几种方法
  • MapReduce编程:词频统计
  • Python基础之文件
  • 使用vuepress搭建文档管理/博客
  • 什么是分布式系统,如何学习分布式系统
  • Dynamics CRM - 如何解决 Microsoft Dynamics CRM has encountered an error 弹窗的问题
  • python队列Queue
  • [转]让Linux进入虚拟机 Virtualenv
  • C++学习二十C++中函数重载的理解
  • [nginx文档翻译系列] 控制nginx
  • 8年软件测试工程师感悟——写给还在迷茫中的朋友
  • Angular Elements 及其运作原理
  • Bytom交易说明(账户管理模式)
  • eclipse的离线汉化
  • golang中接口赋值与方法集
  • MySQL Access denied for user 'root'@'localhost' 解决方法
  • vue2.0开发聊天程序(四) 完整体验一次Vue开发(下)
  • 搭建gitbook 和 访问权限认证
  • 技术:超级实用的电脑小技巧
  • 看图轻松理解数据结构与算法系列(基于数组的栈)
  • 来,膜拜下android roadmap,强大的执行力
  • 浏览器缓存机制分析
  • 盘点那些不知名却常用的 Git 操作
  • 前端学习笔记之观察者模式
  • 使用Maven插件构建SpringBoot项目,生成Docker镜像push到DockerHub上
  • 微信开源mars源码分析1—上层samples分析
  • 新书推荐|Windows黑客编程技术详解
  • 做一名精致的JavaScripter 01:JavaScript简介
  • Java数据解析之JSON
  • 阿里云服务器购买完整流程
  • #stm32整理(一)flash读写
  • #经典论文 异质山坡的物理模型 2 有效导水率
  • #在 README.md 中生成项目目录结构
  • (06)Hive——正则表达式
  • (27)4.8 习题课
  • (超详细)语音信号处理之特征提取
  • (二十四)Flask之flask-session组件
  • (论文阅读31/100)Stacked hourglass networks for human pose estimation
  • (亲测)设​置​m​y​e​c​l​i​p​s​e​打​开​默​认​工​作​空​间...
  • (四) Graphivz 颜色选择
  • (一)ClickHouse 中的 `MaterializedMySQL` 数据库引擎的使用方法、设置、特性和限制。
  • (转)jQuery 基础
  • (转)全文检索技术学习(三)——Lucene支持中文分词
  • (轉貼) VS2005 快捷键 (初級) (.NET) (Visual Studio)
  • **登录+JWT+异常处理+拦截器+ThreadLocal-开发思想与代码实现**
  • .net MVC中使用angularJs刷新页面数据列表
  • .NET Standard 的管理策略
  • .net的socket示例
  • .NET构架之我见