当前位置：首页 > news >正文

【网络爬虫技术】（1·绪论）

news 来源：原创 2024/9/20 7:43:21

🌈 个人主页：十二月的猫-CSDN博客
🔥 系列专栏： 🏀网络爬虫开发技术入门_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光

1. 爬虫是什么

1.1 网络爬虫思想本质

1.2 网络爬虫核心

1.3 爬虫的用途

1.4 爬虫分类

1.4.1 通用爬虫

1.4.2 聚集爬虫

2. 反爬手段

总结

1. 爬虫是什么

•网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

网络爬虫还有许多其他的名字：

Crawler
Spider
Robot
Web agent
Wanderer
worm

这里面我最喜欢worm和spider

所以我后面的所有代码文件的命名都将采用这两个作为名字

1.1 网络爬虫思想本质

网络爬虫获取网页信息本质上和人类获取网络信息是相同的思想

只不过爬虫能够自动化、快速化地多次重复完成人类的行为

人类浏览网络流程：

爬虫：伪装成人类向服务器发出请求，并获取服务器的返回信息

1.2 网络爬虫核心

爬取网页：爬取整个网页包含了网页中所有得内容
解析数据：将网页中你得到的数据进行解析（在大量数据中查找自己所想要的数据）
难点：爬虫和反爬虫之间的博弈

1.3 爬虫的用途

数据分析/人工数据集
社交软件冷启动
舆情监控
竞争对手监控

社交软件冷启动：并没有真正存在人，而是从微博等地方获取个人信息，制造出假用户。从而来实现冷启动（引流）

出行：很多购票网站会去爬取12306，去爬12306的票，并将这个票用来自己售卖从而获取利润收入

1.4 爬虫分类

分为通用爬虫和聚焦爬虫，其中我们要学习和使用的是聚焦爬虫

1.4.1 通用爬虫

通用爬虫：

实例：

百度、360、google、sougou等搜索引擎‐‐‐伯乐在线

爬虫是搜索引擎用来收集互联网上网页信息的程序，是搜索引擎的一部分

它们按照预定的算法遍历网页并将内容抓取到搜索引擎的数据库中

搜索引擎的爬虫功能：

访问网页‐>抓取数据‐>数据存储‐>数据处理‐>提供检索服务

robots协议：

一个约定俗成的协议，添加robots.txt文件，来说明本网站哪些内容不可以被抓取，起不到限制作用自己写的爬虫无需遵守

商用爬虫获取数据要遵循这个协议，不然被爬公司可以告你；

自己爬着玩随便爬的，这个协议就是一个txt文件，没有强制的限制作用

网站排名(SEO)：

1. 根据pagerank算法值进行排名（参考个网站流量、点击率等指标） 2. 百度竞价排名

缺点：

1. 抓取的数据大多是无用的 2.不能根据用户的需求来精准获取数据

1.4.2 聚集爬虫

功能：

根据需求，实现爬虫程序，抓取需要的数据

设计思路：

1.确定要爬取的url

如何获取Url

2.模拟浏览器通过http协议访问url，获取服务器返回的html代码

如何访问

3.解析html字符串（根据一定规则提取需要的数据）

如何解析

2. 反爬手段

User‐Agent： User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
代理IP：西次代理、快代理、高匿名、匿名和透明代理。1.使用透明代理，对方服务器可以知道你使用了代理，并且也知道你的真实IP。2.使用匿名代理，对方服务器可以知道你使用了代理，但不知道你的真实IP。3.使用高匿名代理，对方服务器不知道你使用了代理，更不知道你的真实IP。
验证码访问：利用打码平台：1、云打码平台；2、超级🦅
动态加载网页：网站返回的是js数据并不是网页的真实数据 ——selenium驱动真实的浏览器发送请求
数据加密：分析js代码