当前位置：首页 > news >正文

Python使用多进程及代理ip爬取小说

news 来源：原创 2024/5/13 21:05:03

前言

一、使用多进程爬取小说

二、使用代理IP爬取小说

总结

前言

在爬虫的过程中，为了提高爬取速度，我们可以采用多进程、多线程、协程等方式。本文将介绍Python使用多进程进行爬取的方法，并结合代理IP爬取小说为例子，帮助读者了解如何使用Python多进程和代理IP来进行爬取，以提高爬取效率和规避反爬机制。

一、使用多进程爬取小说

多进程是一种并发编程技术，它可以让程序同时运行多个进程。在爬虫中使用多进程可以提高爬取速度，因为多个进程可以同时从网页上下载数据。

以下是使用Python的多进程模块来实现小说爬虫的示例代码：

import requests
from bs4 import BeautifulSoup
from multiprocessing import Pooldef get_novel(novel_url):headers = {'User-Agent':'Mozilla/5.0'}response = requests.get(novel_url, headers=headers)soup = BeautifulSoup(response.text, 'html.parser')novel_title = soup.find('div', class_='title').textnovel_content = soup.find('div', id='content').textwith open(novel_title+'.txt', 'w', encoding='utf-8') as f:f.write(novel_content)print(novel_title+'下载完成！')if __name__ == '__main__':urls = ['小说1网址', '小说2网址', '小说3网址', '小说4网址', '小说5网址']pool = Pool(processes=5)  # 开启5个进程pool.map(get_novel, urls)  # 执行函数

这段代码中，我们首先导入了requests和BeautifulSoup库，用于获取网页内容和解析HTML。

接着，我们定义了一个get_novel函数，该函数接受一个小说的URL链接为参数。函数中，我们使用requests库发送网络请求，获取小说的HTML页面，然后使用BeautifulSoup库解析HTML代码，找到小说标题和内容，并将小说内容保存到一个文本文件中。

最后，在if __name__ == '__main__':语句中，我们定义了一个urls列表，其中存储了需要爬取的小说链接。然后，我们使用multiprocessing模块的Pool函数创建了一个进程池，开启了5个进程，并使用pool.map()函数对urls列表中的每一个链接都执行get_novel函数。

运行这段代码后，程序将会同时下载5个小说，大大提高了爬取速度。

二、使用代理IP爬取小说

在爬虫中，我们经常会遇到一个问题：某些网站会对频繁访问它的IP进行封锁，导致我们无法正常爬取数据。为了应对这种情况，我们可以使用代理IP来隐藏我们的真实IP地址，从而避免被封锁。

以下是使用Python的代理IP来实现小说爬虫的示例代码：

import requests
from bs4 import BeautifulSoup# 获取代理IP
def get_proxy():response = requests.get('http://127.0.0.1:5010/get/')proxy = response.textreturn proxy# 删除无效代理IP
def delete_proxy(proxy):requests.get('http://127.0.0.1:5010/delete/?proxy={}'.format(proxy))# 下载小说
def get_novel(novel_url):proxy = get_proxy()headers = {'User-Agent':'Mozilla/5.0'}proxies = {'http': 'http://' + proxy}try:response = requests.get(novel_url, headers=headers, proxies=proxies, timeout=5)soup = BeautifulSoup(response.text, 'html.parser')if '错误' in soup.find('title').text:print('IP被封禁，正在更换IP...')delete_proxy(proxy)get_novel(novel_url)else:novel_title = soup.find('div', class_='title').textnovel_content = soup.find('div', id='content').textwith open(novel_title+'.txt', 'w', encoding='utf-8') as f:f.write(novel_content)print(novel_title+'下载完成！')except:print('连接失败，正在更换IP...')delete_proxy(proxy)get_novel(novel_url)if __name__ == '__main__':urls = ['小说1网址', '小说2网址', '小说3网址', '小说4网址', '小说5网址']for url in urls:get_novel(url)

这段代码中，我们定义了三个函数：get_proxy、delete_proxy、get_novel。

get_proxy用于从代理池中获取一个代理IP，delete_proxy用于删除无效的代理IP，get_novel用于下载小说。

在get_novel函数中，我们首先调用get_proxy函数获取一个代理IP，并将其加入proxies参数中。然后，我们使用requests库的get方法发送网络请求，获取小说的HTML页面。如果响应的title中含有“错误”字样，则说明IP被封禁，我们就调用delete_proxy函数删除该代理IP，并重新调用get_novel函数。

如果请求成功，则使用BeautifulSoup库解析HTML代码，找到小说标题和内容，并将小说内容保存到一个文本文件中。

最后，在if __name__ == '__main__':语句中，我们定义了一个urls列表，其中存储了需要爬取的小说链接。然后，我们使用for循环遍历urls列表，对每一个链接都调用get_novel函数。由于我们在get_novel函数中已经处理了代理IP的更换，因此不需要再使用多进程来加速爬取。