当前位置：首页 > news >正文

Python库之Scrapy的高级用法深度解析

news 来源：原创 2024/9/29 11:23:05

Python库之Scrapy的高级用法深度解析

引言

Scrapy是一个强大的Web爬虫框架，它提供了丰富的功能和灵活的扩展性，使得在Python中编写爬虫变得简单而高效。本文将深入探讨Scrapy的高级用法，帮助读者充分利用Scrapy的强大功能。

引言
Scrapy架构概述
高级Spider编写
- 异步处理
- 动态网站爬取
- 深度优先与广度优先爬取
项目中间件的使用
- 请求中间件
- 响应中间件
- 异常处理
Pipeline的应用
- 清洗数据
- 去重
- 数据存储
Scrapy的并发与性能优化
- 并发设置
- 延迟处理
- 异步IO
分布式爬虫部署
- Scrapyd
- Scrapy-Redis
Scrapy与其他工具的集成
- Selenium
- PyQuery
- APScheduler
Scrapy实战案例分析
结语
参考文献

Scrapy架构概述

Scrapy的架构主要由以下几个组件构成：

Spiders：负责解析响应并提取数据，生成Item。
Items：用于定义爬取的数据结构。
Pipelines：处理Spider返回的Item，如清洗、验证、存储到数据库等。
Engine：控制整个爬虫的数据流处理。
Downloader：负责下载网页内容。
Scheduler：调度下载任务，排队等待下载。
Downloader Middlewares：处理引擎与下载器之间的请求和响应。

高级Spider编写

异步处理

Scrapy支持异步处理，可以通过async def定义异步的回调函数。

import scrapyclass AsyncSpider(scrapy.Spider):name = 'async'start_urls = ['http://example.com']async def parse(self, response):# 异步处理逻辑pass

动态网站爬取

对于动态网站，可以结合Selenium进行爬取。

from scrapy import Spider
from selenium import webdriverclass DynamicSpider(Spider):name = 'dynamic'def __init__(self):self.driver = webdriver.PhantomJS()def parse(self, response):self.driver.get(response.url)# 等待页面加载完成self.driver.implicitly_wait(10)item = MyItem()item['data'] = self.driver.page_sourcereturn item

深度优先与广度优先爬取

通过设置DEPTH_PRIORITY和BREADTH_FIRST，可以控制爬取的策略。

# settings.py
DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'

项目中间件的使用

请求中间件

请求中间件可以对请求进行预处理，如添加Cookies、Headers等。

# middlewares.pyclass MyCustomMiddleware(object):def process_request(self, request, spider):request.headers['User-Agent'] = 'My Custom User Agent'

响应中间件

响应中间件可以对响应进行后处理，如自动处理重定向。

# middlewares.pyclass MyCustomMiddleware(object):def process_response(self, request, response, spider):# 自定义处理逻辑return response

异常处理

中间件也可以用于异常处理，确保爬虫的稳定性。

# middlewares.pyclass MyCustomMiddleware(object):def process_exception(self, request, exception, spider):# 对异常进行处理pass

Pipeline的应用

清洗数据

Pipeline可以用来清洗爬取的数据，去除不需要的字段或转换数据格式。

# pipelines.pyclass MyPipeline(object):def process_item(self, item, spider):item['field'] = item['field'].strip()return item

去重

使用Pipeline实现去重，避免存储重复数据。

# pipelines.pyclass DuplicatesPipeline(object):def __init__(self):self.ids_seen = set()def process_item(self, item, spider):if item['id'] in self.ids_seen:return Noneself.ids_seen.add(item['id'])return item

数据存储

Pipeline也常用于将数据存储到数据库。

# pipelines.pyclass MyPipeline(object):def open_spider(self, spider):self.db = SomeDatabase()def close_spider(self, spider):self.db.close()def process_item(self, item, spider):self.db.save(item)return item

Scrapy的并发与性能优化

并发设置

Scrapy的并发可以通过设置来调整，以达到最优性能。

# settings.py
CONCURRENT_REQUESTS = 32
DOWNLOAD_DELAY = 0.25

延迟处理

适当的延迟可以防止被封IP。

# settings.py
DOWNLOAD_DELAY = 1
RANDOMIZE_DOWNLOAD_DELAY = True

异步IO

使用异步IO库，如aiohttp，可以进一步提高Scrapy的并发性能。

分布式爬虫部署

Scrapyd

Scrapyd是一个应用，允许你部署Scrapy爬虫作为一个服务，并运行它们。

安装Scrapyd：pip install scrapyd
运行Scrapyd服务器：scrapyd
部署爬虫到Scrapyd。

Scrapy-Redis

Scrapy-Redis是一个集成了Scrapy和Redis的库，它允许Scrapy项目使用Redis作为消息队列。

安装Scrapy-Redis：pip install scrapy-redis
配置Scrapy项目使用Scrapy-Redis。

Scrapy与其他工具的集成

Selenium

Scrapy可以与Selenium集成，处理动态加载的JavaScript内容。

PyQuery

PyQuery是一个使Python像jQuery一样的库，可以与Scrapy结合使用，简化HTML文档的查询和操作。

APScheduler

APScheduler是一个Python库，用于在Python应用程序中运行定时任务，可以与Scrapy集成，实现定时爬取。

Scrapy实战案例分析

本文将通过一个或多个实战案例，展示Scrapy高级用法的应用，包括项目结构设计、Spider编写、Pipeline实现、性能优化等。

结语

Scrapy作为Python中一个非常流行的爬虫框架，其高级用法可以极大地提升爬虫的性能和效率。通过深入理解Scrapy的架构和组件，合理利用其高级特性，可以构建出功能强大、稳定可靠的爬虫系统。

参考文献

Scrapy官方文档：https://docs.scrapy.org/
Scrapy-Redis GitHub仓库：https://github.com/scrapy/scrapy-redis
APScheduler官方文档：https://apscheduler.readthedocs.io/en/stable/

请注意，这是一个关于Scrapy高级用法的文章概要。由于篇幅限制，每个部分的具体内容需要根据实际需求进一步扩展和详细编写。在实际编写时，可以添加具体的代码示例、配置说明、性能测试数据和案例分析等，以提供更加全面和深入的解析。

MySQL 状态【中文对照表】

Java应用中文件上传安全性分析与安全实践

ModuleNotFoundError: No module named ‘import_export‘

《TCP/IP网络编程》（第十二章）I/O复用（1）

嵌入式学习记录5.18(多点通信)

Node.js和npm常用命令

element-ui组件table去除下方滚动条，实现鼠标左右拖拽移动表格

四、通信和网络安全—局域网|广域网|远程连接和攻击技术（CISSP）

让大模型更聪明——复杂而艰巨的任务

C++类与对象的特性

【算法刷题day60】Leetcode：84. 柱状图中最大的矩形

大规模语言模型的书籍分享

听说部门来了个00后测试开发，一顿操作给我整麻了

自己动手写docker——Namespace

【chagpt】广泛使用API之前：考虑成本和数据隐私

[rust! #004] [译] Rust 的内置 Traits, 使用场景, 方式, 和原因

Android开发 - 掌握ConstraintLayout（四）创建基本约束

angular组件开发

Consul Config 使用Git做版本控制的实现

eclipse(luna)创建web工程

Gradle 5.0 正式版发布

java B2B2C 源码多租户电子商城系统-Kafka基本使用介绍

JavaWeb(学习笔记二)

leetcode388. Longest Absolute File Path

NLPIR语义挖掘平台推动行业大数据应用服务

Spark RDD学习: aggregate函数

SpiderData 2019年2月13日 DApp数据排行榜

spring boot下thymeleaf全局静态变量配置

Synchronized 关键字使用、底层原理、JDK1.6 之后的底层优化以及和ReenTrantLock 的对比...

Work@Alibaba 阿里巴巴的企业应用构建之路

大主子表关联的性能优化方法

翻译--Thinking in React

离散点最小（凸）包围边界查找

少走弯路，给Java 1~5 年程序员的建议

微信开源mars源码分析1—上层samples分析

一个JAVA程序员成长之路分享

应用生命周期终极 DevOps 工具包

用 vue 组件自定义 v-model，实现一个 Tab 组件。

国内开源镜像站点

# AI产品经理的自我修养：既懂用户，更懂技术！

###C语言程序设计-----C语言学习（3）#

#我与Java虚拟机的故事#连载05：Java虚拟机的修炼之道

（1）STL算法之遍历容器

（13）DroneCAN 适配器节点（一）

（2）从源码角度聊聊Jetpack Navigator的工作流程

（2024.6.23）最新版MAVEN的安装和配置教程（超详细）

(C#)Windows Shell 外壳编程系列9 - QueryInfo 扩展提示

（PySpark）RDD实验实战——求商品销量排行

(Repost) Getting Genode with TrustZone on the i.MX

(Spark3.2.0)Spark SQL 初探：使用大数据分析2000万KF数据

（八）Flink Join 连接

（分享）一个图片添加水印的小demo的页面，可自定义样式

(生成器)yield与(迭代器)generator

（十七）devops持续集成开发——使用jenkins流水线pipeline方式发布一个微服务项目

（十三）Flask之特殊装饰器详解

Python库之Scrapy的高级用法深度解析