当前位置：首页 > news >正文

python网络爬虫（一）——网络爬虫基本原理

news 来源：原创 2024/9/19 9:53:16

1.使用Beautiful Soup解析网页

通过request库已经抓取到网页源码，接下来要从源码中找到并提取数据。Beautiful Soup是python的一个库，其主要功能是从网页中抓取数据。Beautiful Soup目前已经被移植到bs4库中，也就是说在导入Beautiful Soup时需要先安装bs4。
安装好bs4库后，还需要安装lxml库。如果我们不安装lxml库，就会使用python默认的解析器。尽管Beautiful Soup既支持python标准库中的HTML解析器，又支持一些第三方解析器，但是lxml库功能更强大，速度更快，因此笔者推荐安装lxml库。

pip3 install request
pip3 install bs4
pip3 install lxml

Beautiful Soup库能够轻松解析网页信息，它被集成在bs4库中，需要时可以从bs4库中调用。首先，HTML文档将被转换成Unicode编码格式，然后Beautiful Soup选择最合适的解析器来解析这个文档，此处指定lxml库进行解析，解析后便将复杂的HTML文档转换成树形结构，并且每个节点都是python对象。

2.网络爬虫的基本原理

2.1网页请求

（1）Request
每个展示在用户面前的网页都必须经过这一步，也就是向服务器发送访问请求；
（2）Response
服务器在接收到用户的请求后，会验证请求的有效性，然后向用户（客户端）发送响应的内容；客户端接收服务器响应的内容，将内容展示出来，这就是我们所熟悉的网页请求。

2.2请求方式

（1）GET
最常见的方式，一般用于获取或查询资源信息，参数设置在URL中，其也是大多数网站使用的方式，只需一次发送和返回，响应速度快

import requests
import json
url = 'https://blog.csdn.net/kk_lzvvkpj/article/details/138960980'
strhtml = requests.get(url)
print(strhtml.status_code)
print(strhtml.json())

获取网页信息的代码如下：

import requests
from bs4 import BeautifulSoupurl = 'https://www.bilibili.com/video/BV1TC4y1N7dB/?spm_id_from=333.1007.0.0&vd_source=912d1bec97cad7dac820d2ba865f116a'
strhtml = requests.get(url)
print(strhtml.text)soup = BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main >div >div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)

这里用select选择器定位数据，在定位数据时需要使用浏览器的开发者模式，将鼠标光标停留在对应的数据位置并右击，在弹出的快捷菜单中选择“检查”命令。

（2）POST
相比GET方式，POST方式通过request body传递参数，可发送请求的信息远大于GET方式。
&emsp；Post请求数据的方式不同于GET，GET可以通过URL传递参数，而POST参数则需要放在请求实体里。接着使用request.post()方法请求表单数据，并将字符串格式的数据转换成JSON格式的数据，并根据数据结构提取数据