当前位置：首页 > news >正文

使用requests库进行网络爬虫：入门指南

news 来源：原创 2024/9/23 1:29:46

在数据收集与分析的广阔领域中，网络爬虫是一项基础而强大的技能。requests库是Python中用于发送HTTP请求的第三方库，它简洁易用，非常适合初学者学习网络爬虫。本文将带你一步步了解如何使用requests库进行基本的网络爬虫操作。

一、安装requests库

在开始之前，确保你的Python环境已经安装了requests库。如果未安装，可以通过pip命令轻松安装：

pip install requests

二、发送HTTP请求

2.1 GET请求

GET请求是最常用的HTTP请求方法之一，用于请求访问已被URI（统一资源标识符）识别的资源。使用requests.get()方法可以发送GET请求。

import requests

发送GET请求

response = requests.get('https://www.example.com')

打印响应状态码

print(response.status_code)

打印响应内容（文本形式）

print(response.text)

2.2 POST请求

POST请求通常用于向服务器提交数据（如表单提交）。使用requests.post()方法，并可以通过data参数传递要发送的数据。

import requests

发送POST请求，提交表单数据

data = {'key': 'value'}  
response = requests.post('https://www.example.com/post', data=data)

打印响应内容

print(response.text)

三、处理响应

3.1 响应状态码

HTTP响应状态码表示了HTTP请求的结果。通过response.status_code可以获取到状态码。

3.2 响应内容

response.text：以字符串形式返回响应内容，适用于文本或JSON数据。
response.content：以字节形式返回响应内容，适用于二进制数据（如图片）。

3.3 JSON数据

如果响应内容是JSON格式，可以直接使用response.json()方法解析为Python字典。

import requests  response = requests.get('https://api.example.com/data')

解析JSON数据

data = response.json()

打印解析后的数据

print(data)
四、请求头与请求参数

4.1 自定义请求头

有时候，服务器会根据请求头中的信息来响应请求。你可以通过headers参数自定义请求头。

python
headers = {  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}  response = requests.get('https://www.example.com', headers=headers)

4.2 传递请求参数

对于GET请求，有时需要在URL中附加查询参数。可以通过params参数以字典形式传递这些参数，requests会自动将它们编码并附加到URL上。

params = {'key1': 'value1', 'key2': 'value2'}  
response = requests.get('https://www.example.com/search', params=params)

五、异常处理

在进行网络请求时，可能会遇到各种异常（如网络问题、服务器错误等）。使用try…except语句块可以优雅地处理这些异常。

import requests  
from requests.exceptions import RequestException try:  response = requests.get('https://wrong-url.com')  response.raise_for_status()  # 如果响应状态码不是200，则抛出HTTPError异常  
except RequestException as e:  print(e)