当前位置: 首页 > news >正文

requests模块的其他方法

requests模块的其他方法

学习目标
  1. 掌握requests中cookirJar的处理方法
  2. 掌握requests解决https证书错误的问题
  3. 掌握requests中超时参数的使用
  4. 掌握retrying模块的使用

1 requests中cookirJar的处理方法

使用request获取的resposne对象,具有cookies属性,能够获取对方服务器设置在本地的cookie,但是如何使用这些cookie呢?

1.1 方法介绍
  1. response.cookies是CookieJar类型
  2. 使用requests.utils.dict_from_cookiejar,能够实现把cookiejar对象转化为字典
1.2 方法展示
import requestsurl = "http://www.baidu.com"
#发送请求,获取resposne
response = requests.get(url)
print(type(response.cookies))#使用方法从cookiejar中提取数据
cookies = requests.utils.dict_from_cookiejar(response.cookies)
print(cookies)

输出为:

<class 'requests.cookies.RequestsCookieJar'>
{'BDORZ': '27315'}
注意:

在前面的requests的session类中,我们不需要处理cookie的任何细节,如果有需要,我们可以使用上述方法来解决

2 requests处理证书错误

经常我们在网上冲浪时,经常能够看到下面的提示:

出现这个问题的原因是:ssl的证书不安全导致

2.1 代码中发起请求的效果

那么如果在代码中请求会怎么样呢?

import requestsurl = "https://www.12306.cn/mormhweb/"
response = requests.get(url)

返回证书错误,如下:

ssl.CertificateError ...
2.2 解决方案

为了在代码中能够正常的请求,我们修改添加一个参数

import requestsurl = "https://www.12306.cn/mormhweb/"# requests.packages.urllib3.disable_warnings() # 不显示安全提示 response = requests.get(url,verify=False)

3 超时参数的使用

在平时网上冲浪的过程中,我们经常会遇到网络波动,这个时候,一个请求等了很久可能任然没有结果

在爬虫中,一个请求很久没有结果,就会让整个项目的效率变得非常低,这个时候我们就需要对请求进行强制要求,让他必须在特定的时间内返回结果,否则就报错

3.1 超时参数使用方法如下:
response = requests.get(url,timeout=3)

通过添加timeout参数,能够保证在3秒钟内返回响应,否则会报错

注意:

这个方法还能够拿来检测代理ip的质量,如果一个代理ip在很长时间没有响应,那么添加超时之后也会报错,对应的这个ip就可以从代理ip池中删除

4 retrying模块的使用

使用超时参数能够加快我们整体的请求速度,但是在正常的网页浏览过成功,如果发生速度很慢的情况,我们会做的选择是刷新页面,那么在代码中,我们是否也可以刷新请求呢?

对应的,retrying模块就可以帮助我们解决

4.1 retrying模块的使用

retrying模块的地址:https://pypi.org/project/retrying/

retrying 模块的使用

  1. 使用retrying模块提供的retry模块
  2. 通过装饰器的方式使用,让被装饰的函数反复执行
  3. retry中可以传入参数stop_max_attempt_number,让函数报错后继续重新执行,达到最大执行次数的上限,如果每次都报错,整个函数报错,如果中间有一个成功,程序继续往后执行
4.2 retrying和requests的简单封装

实现一个发送请求的函数,每次爬虫中直接调用该函数即可实现发送请求,在其中

  • 使用timeout实现超时报错
  • 使用retrying模块实现重试

代码参考:

# parse.py
import requests
from retrying import retryheaders = {}#最大重试3次,3次全部报错,才会报错
@retry(stop_max_attempt_number=3) 
def _parse_url(url)#超时的时候回报错并重试response = requests.get(url, headers=headers, timeout=3) #状态码不是200,也会报错并重试assert response.status_code == 200return responsedef parse_url(url)try: #进行异常捕获response = _parse_url(url)except Exception as e:print(e)#报错返回Noneresponse = Nonereturn response

小结

  1. requests.utils.dict_from_cookiejar能够实现cookiejar转化为字典
  2. 请求方法中添加verify=False能够实现请求过程中不验证证书
  3. 请求方法中添加timeout能够实现强制程序返回结果的能够,否则会报错
  4. retrying模块能够实现捕获函数的异常,反复执行函数的效果,和timeout配合使用,能够解决网络波动带来的请求不成功的问题

相关文章:

  • HTML静态网页成品作业(HTML+CSS)——电影网首页网页设计制作(1个页面)
  • 力扣hot100:76.最小覆盖子串(滑动窗口)
  • Android UI:ViewTree中的操作
  • 惬意上手Redis
  • 使用Anaconda创建Python指定版本的虚拟环境
  • 富格林:揭秘应对暗箱操作正规技巧
  • 【Linux进阶之路】HTTP协议
  • ARTS Week 20
  • BJFU|大数据基础考前速记(含考试大纲与复习笔记)
  • Pygame教程07:键盘常量+键盘事件的2种捕捉方式
  • SQL: 触发器/存储过程/游标的操作
  • System类 --java学习笔记
  • 拍立淘API:助力电商企业快速定位目标客户
  • websocket 使用示例
  • 实现QT中qDebug()的日志重定向
  • Git学习与使用心得(1)—— 初始化
  • java概述
  • jQuery(一)
  • Laravel5.4 Queues队列学习
  • Linux编程学习笔记 | Linux IO学习[1] - 文件IO
  • MyEclipse 8.0 GA 搭建 Struts2 + Spring2 + Hibernate3 (测试)
  • 闭包--闭包作用之保存(一)
  • 从零搭建Koa2 Server
  • 复杂数据处理
  • 前端攻城师
  • 深入浏览器事件循环的本质
  • 微信开放平台全网发布【失败】的几点排查方法
  • 一、python与pycharm的安装
  • 正则表达式
  • 【干货分享】dos命令大全
  • 我们雇佣了一只大猴子...
  • 整理一些计算机基础知识!
  • ​LeetCode解法汇总2808. 使循环数组所有元素相等的最少秒数
  • (03)光刻——半导体电路的绘制
  • (4)通过调用hadoop的java api实现本地文件上传到hadoop文件系统上
  • (8)Linux使用C语言读取proc/stat等cpu使用数据
  • (附源码)计算机毕业设计大学生兼职系统
  • (一一四)第九章编程练习
  • (原創) 物件導向與老子思想 (OO)
  • (转) ns2/nam与nam实现相关的文件
  • (转)大型网站架构演变和知识体系
  • .net 4.0 A potentially dangerous Request.Form value was detected from the client 的解决方案
  • .net 按比例显示图片的缩略图
  • .net 获取url的方法
  • .NETCORE 开发登录接口MFA谷歌多因子身份验证
  • .NET开源项目介绍及资源推荐:数据持久层 (微软MVP写作)
  • @RequestMapping用法详解
  • [2018-01-08] Python强化周的第一天
  • [Android]如何调试Native memory crash issue
  • [ANT] 项目中应用ANT
  • [BPU部署教程] 教你搞定YOLOV5部署 (版本: 6.2)
  • [bzoj1901]: Zju2112 Dynamic Rankings
  • [C#][opencvsharp]opencvsharp sift和surf特征点匹配
  • [c++] 单例模式 + cyberrt TimingWheel 单例分析
  • [c语言]小课堂 day2