当前位置: 首页 > news >正文

2.爬虫基础——为什么学习爬虫?

我们来解答上一次提出的问题:为什么花费这么大力气去html页面提取信息干什么?还不如直接打开原始页面进行复制粘贴呢,这不是一样的吗?

第一点:个人复制粘贴的话,一个网页还好,十个网页也还行吧,但是一百个,一千个甚至更多呢?所以说,人力是不足以完成这个工作的。因此需要爬虫的参与。

第二点:爬虫模拟的是人的状态。比如,我想要进行复制粘贴所有的影评信息,是不是应该按顺序打开每一个的影评页面呢?举一个例子:还是豆瓣影评数据->https://movie.douban.com/review/best/【豆瓣最受欢迎的影评信息】

(1)人的状态:点击第一个,获取到影评,接着复制粘贴;然后是第二个,获取到影评,接着复制粘贴...

(2)爬虫的状态:获取第一个url对应的html源码,按照一定规则获取到影评,接着保存数据;获取第二个url对应的html源码,按照一定规则获取到影评,接着保存数据...

实际上,我们发现:爬虫就是完全模拟了人获取数据的操作的过程,把这一切操作过程给程序化了,人是打开网页看到的是html源码对应的页面,而爬虫是获取html源码,在html上按照一定规则进行数据提取。【强大的模拟能力】

第三点:时间成本大大降低。如果是按照人一个一个页面打开复制粘贴的话,整个耗费的时间将会非常多,而爬虫我们只需要写好程序,它就会从不懈怠地执行整个操作,并且大大降低时间成本呢。换句话说,当一个人复制粘贴了1个页面的时候,爬虫可能已经爬取了10个、50个、100个页面,也就是相当于这么多个人,对于公司来说,请这么多人来干这个还不如写个爬虫程序。当然,如果未来进化后的人类处理数据的速度可以超过爬虫,那爬虫存在的意义也就没有了,所以,本质还是成本的问题。


 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • IE 无法播放flash的解决方法
  • Anaconda安装库方式总结
  • Php部分常见问题总结
  • 谈一下Python虚拟环境
  • php中几个字符处理函数的说明
  • Python爬虫实例--新浪热搜榜[xpath语法]
  • 诛仙二
  • Python爬虫实例--新浪热搜榜[正则表达式]
  • 豆瓣电影影评爬取---最受欢迎的影评[xpath语法]
  • hadoop安全模式无法关闭问题
  • 迷茫也得行动了
  • 3.爬虫基础——网络请求
  • 使用Rman的Plus archvielog选项简化数据库备份操作
  • 4.爬虫基础——你真的了解url(网址)吗?
  • 1.爬虫数据提取——方法总结
  • 【译】理解JavaScript:new 关键字
  • 11111111
  • 2017 年终总结 —— 在路上
  • 4. 路由到控制器 - Laravel从零开始教程
  • Angular 4.x 动态创建组件
  • Apache的基本使用
  • js作用域和this的理解
  • niucms就是以城市为分割单位,在上面 小区/乡村/同城论坛+58+团购
  • PHP 程序员也能做的 Java 开发 30分钟使用 netty 轻松打造一个高性能 websocket 服务...
  • Promise面试题2实现异步串行执行
  • Redis提升并发能力 | 从0开始构建SpringCloud微服务(2)
  • Ruby 2.x 源代码分析:扩展 概述
  • TypeScript迭代器
  • Webpack 4x 之路 ( 四 )
  • 分布式熔断降级平台aegis
  • 精益 React 学习指南 (Lean React)- 1.5 React 与 DOM
  • 如何优雅的使用vue+Dcloud(Hbuild)开发混合app
  • 微信开源mars源码分析1—上层samples分析
  • ​ArcGIS Pro 如何批量删除字段
  • !!java web学习笔记(一到五)
  • #if #elif #endif
  • #数据结构 笔记一
  • #我与Java虚拟机的故事#连载04:一本让自己没面子的书
  • (03)光刻——半导体电路的绘制
  • (2)MFC+openGL单文档框架glFrame
  • (2021|NIPS,扩散,无条件分数估计,条件分数估计)无分类器引导扩散
  • (21)起落架/可伸缩相机支架
  • (4)事件处理——(7)简单事件(Simple events)
  • (day6) 319. 灯泡开关
  • (echarts)echarts使用时重新加载数据之前的数据存留在图上的问题
  • (八)Flask之app.route装饰器函数的参数
  • (纯JS)图片裁剪
  • (四) Graphivz 颜色选择
  • (算法)大数的进制转换
  • (转)shell调试方法
  • (转)机器学习的数学基础(1)--Dirichlet分布
  • **PyTorch月学习计划 - 第一周;第6-7天: 自动梯度(Autograd)**
  • .bat批处理(五):遍历指定目录下资源文件并更新
  • .net Application的目录
  • .Net Framework 4.x 程序到底运行在哪个 CLR 版本之上