当前位置: 首页 > news >正文

python爬虫的意义_爬虫的意义与爬虫基本流程

前戏

亲爱的朋友:

想不想在夜深人静的时候,看一些更睡不着的图片…

想不想在杂乱的数据中,获取到你想要的东西…

是的,朋友,解决上面的问题非常的简单,只需要继续往下学习

啥是爬虫

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它

比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿

然后,再从扒下来的这些网站上面,利用我们接下来的所学,分析出我们想要的数据即可

爬虫的价值

抓取互联网上的数据,为我所用,有了大量的数据,就如同有了一个数据银行一样,下一步做的就是如何将这些爬取的数据产品化,商业化。

1397259-20181113154859574-2018265702.png

浏览网页的过程

在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取

什么是URL

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它

URL的格式由三部分组成:

①第一部分是协议(或称为服务方式)。

②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

③第三部分是主机资源的具体地址,如目录和文件名等

爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助

简单的总结

简单的来讲,所谓的爬虫其实就是请求网站URL并提取网站数据的自动化程序

1397259-20181113154910228-149750898.png

相关文章:

  • python 安卓开发环境_Crazyflie笔记六: PC端 python 开发环境,安卓端开发环境搭建...
  • bool c语言_C++知识点 5:C++ 对 C 语言的扩展
  • 如何把密度函数化为标准正态二维分布_概率论复习(4): 正态分布
  • 网络拓扑图标_快速创建 HTML5 Canvas 电信网络拓扑图
  • python网页爬虫菜鸟教程_python菜鸟 想做一个简单的爬虫 求教程
  • python编程控制机器人_python人工智能机器人工具书籍: Learn Robotics Programming 2018
  • python numpy库作用_Python NumPy库学习
  • python中pow_Python中float的内置pow()和math.pow()之间的区别?
  • python3.6标准库pdf_python3.6下载|python3.6官方版-520下载站
  • python常用单词有多少_在python中,如何找出一个单词中有多少个单独的字母?
  • wireshark抓取dns_利用Scapy打造简单的DNS监测脚本
  • flash动画在新媒体中的应用_2020年宁德市新媒体新技术创新应用课堂教学研讨活动(高中组)在宁德市高级中学举行(二)...
  • python语言流程控制语句的格式_慢步学python,编程基础知识,流程控制语句if
  • 输变电设备物联网传感器数据通信规约_物联网大潮来袭,无线通讯模块如何连接未来?...
  • python怎么爬取app数据_python高级教程 爬虫抓取App数据
  • python3.6+scrapy+mysql 爬虫实战
  • 【剑指offer】让抽象问题具体化
  • 【刷算法】从上往下打印二叉树
  • Druid 在有赞的实践
  • extjs4学习之配置
  • in typeof instanceof ===这些运算符有什么作用
  • Spark RDD学习: aggregate函数
  • 彻底搞懂浏览器Event-loop
  • 发布国内首个无服务器容器服务,运维效率从未如此高效
  • 基于OpenResty的Lua Web框架lor0.0.2预览版发布
  • 前端设计模式
  • 突破自己的技术思维
  • 微服务框架lagom
  • 用quicker-worker.js轻松跑一个大数据遍历
  • Play Store发现SimBad恶意软件,1.5亿Android用户成受害者 ...
  • PostgreSQL之连接数修改
  • ​LeetCode解法汇总2696. 删除子串后的字符串最小长度
  • ​LeetCode解法汇总518. 零钱兑换 II
  • "无招胜有招"nbsp;史上最全的互…
  • #我与Java虚拟机的故事#连载11: JVM学习之路
  • (C++17) optional的使用
  • (Redis使用系列) Springboot 整合Redisson 实现分布式锁 七
  • (ZT)一个美国文科博士的YardLife
  • (附源码)springboot 房产中介系统 毕业设计 312341
  • (附源码)ssm基于web技术的医务志愿者管理系统 毕业设计 100910
  • (机器学习-深度学习快速入门)第一章第一节:Python环境和数据分析
  • (五)网络优化与超参数选择--九五小庞
  • (转)Spring4.2.5+Hibernate4.3.11+Struts1.3.8集成方案一
  • **CI中自动类加载的用法总结
  • ... 是什么 ?... 有什么用处?
  • .NET 实现 NTFS 文件系统的硬链接 mklink /J(Junction)
  • .NET 依赖注入和配置系统
  • .NET/C# 项目如何优雅地设置条件编译符号?
  • .NET应用架构设计:原则、模式与实践 目录预览
  • @SuppressWarnings注解
  • [ linux ] linux 命令英文全称及解释
  • [1181]linux两台服务器之间传输文件和文件夹
  • [20150321]索引空块的问题.txt
  • [boost]使用boost::function和boost::bind产生的down机一例
  • [C#]winform部署PaddleOCRV3推理模型