当前位置: 首页 > news >正文

Python学习之路-爬虫进阶:爬虫框架雏形

Python学习之路-爬虫进阶:爬虫框架雏形

代码实现分析

明确模块之间的逻辑关系

五个核心模块和三个内置的对象是关键模块,需要优先实现

先抛开中间件,分析下它们之间的逻辑关系是:

  1. 构造spider中start_urls中的请求
  2. 传递给调取器进行保存,之后从中取出
  3. 取出的request对象交给下载的进行下载,返回response
  4. response交给爬虫模块进行解析,提取结果
  5. 如果结果是request对象,重新交给调度器,如果结果是item对象,交给管道处理

以上的逻辑是在引擎中完成的

设计代码结构

  1. 首先给框架起一个名称,如:

     scrapy_plus
    
  2. 继续分类以及解耦的设计思想:

    • 把核心模块放置在一起

    • 请求对象模块和响应对象模块统一作为http模块

    • 数据对象单独作为一个分类

      代码结构如下:

      -- scrapy_plus-- __init__.py-- core-- __init__.py-- spider.py-- scheduler.py-- downloader.py-- pipeline.py-- engine.py-- http-- __init__.py-- request.py-- response.py-- item.py
      

到这里,我们完成了框架的大致结构是设计,那么接下来我们就需要实现模块中的具体内容了

request对象的封装

对HTTP基本的请求属性进行简单封装,实现一个Request对象

# scrapy/http/request.py
'''封装Request对象'''class Request(object):'''框架内置请求对象,设置请求信息'''def __init__(self, url, method='GET',\headers=None, params=None, data=None):self.url = url    # 请求地址self.method = method    # 请求方法self.headers = headers    # 请求头self.params = params    # 请求参数self.data = data    # 请求体

response对象的封装

对HTTP基本的响应属性进行简单封装,实现一个Response对象

# scrapy/http/response.py
'''封装Response对象'''class Response(object):'''框架内置Response对象'''def __init__(self, url, status_code, headers, body):self.url = url    # 响应urlself.status_code = status_code    # 响应状态码self.headers = headers    # 响应头self.body = body    # 响应体

item对象的封装

对数据进行简单封装,实现Item对象:

# scrapy/item.py
'''item对象'''class Item(object):'''框架内置Item对象'''def __init__(self, data):# data表示传入的数据self._data = data    # 设置为简单的私有属性@propertydef data(self):'''对外提供data进行访问,一定程度达到保护的作用'''return self._data

其中property的理解:

  • property 能够让调用一个方法和调用一个属性一样容易,即不用打括号
  • property 能够让这个属性的值是只读的,即不能够对其进行重新赋值,达到一定的保护的目的

spider模块的封装

爬虫组件功能

  • 构建请求信息(初始的),也就是生成请求对象(Request)
  • 解析响应对象,返回数据对象(Item)或者新的请求对象(Request)
实现方案
  • 实现start_requests方法,返回请求对象
  • 实现parse方法,返回Item对象或者新的请求对象
# scrapy_plus/core/spider.py
'''爬虫组件封装'''
from scrapy_plus.item import Item    # 导入Item对象
from scrapy_plus.http.request import Request    # 导入Request对象class Spider(object):'''1. 构建请求信息(初始的),也就是生成请求对象(Request)2. 解析响应对象,返回数据对象(Item)或者新的请求对象(Request)'''start_url = 'http://www.baidu.com'    # 默认初始请求地址   #这里以请求百度首页为例def start_requests(self):'''构建初始请求对象并返回'''return Request(self.start_url)def parse(self, response):'''解析请求并返回新的请求对象、或者数据对象'''return Item(response.body)   # 返回item对象

调度器模块的封装

调度器功能
  • 缓存请求对象(Request),并为下载器提供请求对象,实现请求的调度:
  • 对请求对象进行去重判断:实现去重方法_filter_request,该方法对内提供,因此设置为私有方法
实现方案
  • 利用队列FIFO存储请求;
  • 实现add_request方法添加请求,接收请求对象作为参数;
  • 实现get_request方法对外提供从队列取出的请求对象
# scrapy_plus/core/scheduler.py
'''调度器模块封住'''
# 利用six模块实现py2和py3兼容
from six.moves.queue import Queueclass Scheduler(object):'''1. 缓存请求对象(Request),并为下载器提供请求对象,实现请求的调度2. 对请求对象进行去重判断'''def __init__(self):self.queue = Queue()def add_request(self, request):'''添加请求对象'''self.queue.put(request)def get_request(self):'''获取一个请求对象并返回'''request = self.queue.get()return requestdef _filter_request(self):'''请求去重'''# 暂时不实现pass

下载器模块的封装

下载器功能

根据请求对象(Request),发起HTTP、HTTPS网络请求,拿到HTTP、HTTPS响应,构建响应对象(Response)并返回

实现方案
  • 利用requests、urllib2等模块发请求,这里使用requests模块
  • 实现get_response方法,接收request请求对象作为参数,发起请求,获取响应
# scrapy_plus/core/downloader.py
'''下载器组件'''
import requests
from scrapy_plus.http.response import Responseclass Downloader(object):'''根据请求对象(Request),发起HTTP、HTTPS网络请求,拿到HTTP、HTTPS响应,构建响应对象(Response)并返回'''def get_response(self, request):'''发起请求获取响应的方法'''# 1. 根据请求对象,发起请求,获取响应#    判断请求方法:if request.method.upper() == 'GET':resp = requests.get(request.url, headers=request.headers,\params=request.params)elif request.method.upper() == 'POST':resp = requests.post(request.url,headers=request.headers,\params=request.params,data=request.data)else:# 如果方法不是get或者post,抛出一个异常raise Exception("不支持的请求方法")# 2. 构建响应对象,并返回return Response(resp.url, resp.status_code, resp.headers, resp.content)

管道模块的封装

管道组件功能

负责处理数据对象

实现方案
  • 实现process_item方法,接收数据对象作为参数
# scrapy_plus/core/pipeline.py
'''管道组件封装'''class Pipeline(object):'''负责处理数据对象(Item)'''def process_item(self, item):'''处理item对象'''print("item: ", item)

引擎模块的封装

引擎组件功能
  • 对外提供整个的程序的入口
  • 依次调用其他组件对外提供的接口,实现整个框架的运作(驱动)
实现方案
  • 利用init方法初始化其他组件对象,在内部使用
  • 实现start方法,由外部调用,启动引擎
  • 实现_start_engine方法,完成整个框架的运行逻辑
  • 具体参考上一小节中雏形结构引擎的逻辑
# scrapy_plus/core/engine.py
'''引擎组件'''
from scrapy_plus.http.request import Request    # 导入Request对象from .scheduler import Scheduler
from .downloader import Downloader
from .pipeline import Pipeline
from .spider import Spiderclass Engine(object):'''a. 对外提供整个的程序的入口b. 依次调用其他组件对外提供的接口,实现整个框架的运作(驱动)'''def __init__(self):self.spider = spider()    # 接收爬虫对象self.scheduler = Scheduler()    # 初始化调度器对象self.downloader = Downloader()    # 初始化下载器对象self.pipeline = Pipeline()    # 初始化管道对象def start(self):'''启动整个引擎'''self._start_engine()def _start_engine(self):'''依次调用其他组件对外提供的接口,实现整个框架的运作(驱动)'''# 1. 爬虫模块发出初始请求start_request = self.spider.start_requests()# 2. 把初始请求添加给调度器self.scheduler.add_request(start_request)# 3. 从调度器获取请求对象,交给下载器发起请求,获取一个响应对象request = self.scheduler.get_request()# 4. 利用下载器发起请求response = self.downloader.get_response(request)# 5. 利用爬虫的解析响应的方法,处理响应,得到结果result = self.spider.parse(response)# 6. 判断结果对象# 6.1 如果是请求对象,那么就再交给调度器if isinstance(result, Request):self.scheduler.add_request(result)# 6.2 否则,就交给管道处理else:self.pipeline.process_item(result)

实现中间件模块

为什么需要中间件

中间件相当于一个钩子,能够在其中对request对象和response响应根据特定的需求进行一些特定的处理 例如:对于所有的request对象,我们需要在其中对他添加代理或者是随机的User-Agent都可以在中间件中完成

完成爬虫中间件spider_middlewares

# scrapy_plus/middlewares/spider_middlewares.py
class SpiderMiddleware(object):'''爬虫中间件基类'''def process_request(self, request):'''预处理请求对象'''print("这是爬虫中间件:process_request方法")return requestdef process_response(self, response):'''预处理数据对象'''print("这是爬虫中间件:process_response方法")return response

完成下载downloader_middlewares

# scrapy_plus/middlewares/downloader_middlewares.py
class DownloaderMiddleware(object):'''下载器中间件基类'''def process_request(self, request):'''预处理请求对象'''print("这是下载器中间件:process_request方法")return requestdef process_response(self, response):'''预处理响应对象'''print("这是下载器中间件:process_response方法")return response

修改engine.py

加入中间件模块

# scrapy_plus/core/engine.py
'''引擎
a. 对外提供整个的程序的入口
b. 依次调用其他组件对外提供的接口,实现整个框架的运作(驱动)
'''
from scrapy_plus.http.request import Request    # 导入Request对象
from scrapy_plus.middlewares.spider_middlewares import SpiderMiddleware
from scrapy_plus.middlewares.downloader_middlewares import DownloaderMiddlewarefrom .spider import Spider
from .scheduler import Scheduler
from .downloader import Downloader
from .pipeline import Pipelineclass Engine(object):def __init__(self):......self.spider_mid = SpiderMiddleware()    # 初始化爬虫中间件对象self.downloader_mid = DownloaderMiddleware()    # 初始化下载器中间件对象......def _start_engine(self):'''依次调用其他组件对外提供的接口,实现整个框架的运作(驱动)'''# 1. 爬虫模块发出初始请求start_request = self.spider.start_requests()# 2. 把初始请求添加给调度器# 利用爬虫中间件预处理请求对象start_request = self.spider_mid.process_request(start_request)self.scheduler.add_request(start_request)# 3. 从调度器获取请求对象,交给下载器发起请求,获取一个响应对象request = self.scheduler.get_request()# 利用下载器中间件预处理请求对象request = self.downloader_mid.process_request(request)# 4. 利用下载器发起请求response = self.downloader.get_response(request)# 利用下载器中间件预处理响应对象response = self.downloader_mid.process_response(response)# 5. 利用爬虫的解析响应的方法,处理响应,得到结果result = self.spider.parse(response)# 6. 判断结果对象# 6.1 如果是请求对象,那么就再交给调度器if isinstance(result, Request):# 利用爬虫中间件预处理请求对象result = self.spider_mid.process_request(result)self.scheduler.add_request(result)# 6.2 否则,就交给管道处理else:self.pipeline.process_item(result)

观察结果

运行main.py文件,查看结果

运行结果:

这是爬虫中间件:process_request方法
这是下载器中间件:process_request方法
这是下载器中间件:process_request方法
这是爬虫中间件:process_response方法
item对象: <scrapy_plus.item.Item object at 0x10759eef0>

相关文章:

  • 构建智慧交通平台:架构设计与实现
  • Python爬虫——解析库安装(1)
  • 【操作系统】Ubuntu Swap内存扩容
  • 【30秒看懂大数据】数据标准
  • AlmaLinux更换鼠标样式为Windows样式
  • WordPress函数wptexturize的介绍及用法示例,字符串替换为HTML实体
  • 随机过程及应用学习笔记(四) 马尔可夫过程
  • LLVM实战之LLVM bitcode转换成目标平台汇编码
  • 【30秒看懂大数据】数据中台
  • 不到1s生成mesh! 高效文生3D框架AToM
  • Java学习网络编程
  • Apache 神禹(shenyu)源码阅读(三)——被网关路由的后端服务 Client 向 Admin 注册的数据传输(Client端)
  • 计算机网络概述习题拾遗
  • 【程序设计竞赛】C++与Java的细节优化
  • ch3-homework-基于InternLM和LangChain搭建自己的知识库
  • ES6, React, Redux, Webpack写的一个爬 GitHub 的网页
  • GitUp, 你不可错过的秀外慧中的git工具
  • input实现文字超出省略号功能
  • IP路由与转发
  • java8-模拟hadoop
  • mongo索引构建
  • mysql中InnoDB引擎中页的概念
  • react-native 安卓真机环境搭建
  • Webpack 4 学习01(基础配置)
  • 阿里研究院入选中国企业智库系统影响力榜
  • 从 Android Sample ApiDemos 中学习 android.animation API 的用法
  • 工作踩坑系列——https访问遇到“已阻止载入混合活动内容”
  • 基于MaxCompute打造轻盈的人人车移动端数据平台
  • 聊聊flink的BlobWriter
  • 模仿 Go Sort 排序接口实现的自定义排序
  • 目录与文件属性:编写ls
  • 让你的分享飞起来——极光推出社会化分享组件
  • 小程序滚动组件,左边导航栏与右边内容联动效果实现
  • 分布式关系型数据库服务 DRDS 支持显示的 Prepare 及逻辑库锁功能等多项能力 ...
  • 如何用纯 CSS 创作一个货车 loader
  • 我们雇佣了一只大猴子...
  • ​​快速排序(四)——挖坑法,前后指针法与非递归
  • ​第20课 在Android Native开发中加入新的C++类
  • #stm32驱动外设模块总结w5500模块
  • (10)工业界推荐系统-小红书推荐场景及内部实践【排序模型的特征】
  • (6)【Python/机器学习/深度学习】Machine-Learning模型与算法应用—使用Adaboost建模及工作环境下的数据分析整理
  • (附源码)spring boot网络空间安全实验教学示范中心网站 毕业设计 111454
  • (附源码)springboot宠物医疗服务网站 毕业设计688413
  • (免费领源码)python#django#mysql校园校园宿舍管理系统84831-计算机毕业设计项目选题推荐
  • (十六)Flask之蓝图
  • (一)搭建springboot+vue前后端分离项目--前端vue搭建
  • (原創) 人會胖會瘦,都是自我要求的結果 (日記)
  • (转)Android学习笔记 --- android任务栈和启动模式
  • .form文件_SSM框架文件上传篇
  • .net core使用RPC方式进行高效的HTTP服务访问
  • .NET/C# 编译期能确定的字符串会在字符串暂存池中不会被 GC 垃圾回收掉
  • .net网站发布-允许更新此预编译站点
  • @SentinelResource详解
  • @WebService和@WebMethod注解的用法
  • [ SNOI 2013 ] Quare