当前位置: 首页 > news >正文

提升Scrapy框架爬取数据效率的五种方式

1、增加并发线程开启数量

  settings配置文件中,修改CONCURRENT_REQUESTS = 100,默认为32,可适当增加;

2、降低日志级别

  运行scrapy时会产生大量日志占用CPU,为减少CPU使用率,可修改log输出级别

  settings配置文件中LOG_LEVEL='ERROR' 或 LOG_LEVEL = 'INFO' ;

3、禁止cookie

  scrapy默认自动保存cookie,占用CPU,如果不是真的需要cookie,可设置为不保存cookie,以减少CPU使用率,

  settings配置文件中:COOKIES_ENABLED = False 解开注释

4、禁止请求重试:

  对于失败的请求会重新发送,则会减慢爬取速度,因此可以在对丢失少量数据也不影响时,禁止重试,

  settings配置文件中加:RETRY_ENABLED = False ;

5、减少下载超时:

  如果对一个非常慢的链接进行爬取,减少下载超时可以让卡住的链接快速被放弃,从而提升效率,

  在settings配置文件中进行编写:DOWNLOAD_TIMEOUT = 10 设置超时时间;

转载于:https://www.cnblogs.com/jayxuan/p/10840068.html

相关文章:

  • 详解Linux运维工程师必备技能
  • c++实现字符串分割函数--split()
  • 基于预计算的全局光照技术
  • java实现多线程(下)
  • 球谐光照——杂谈——待完成
  • 基于体素的全局光照技术
  • 路径追踪技术
  • 辐射度方法
  • [计算机体系结构:量化研究方法]学习笔记:Chapter 1
  • 基于预计算辐射传递的全局光照技术
  • 傅里叶变换
  • PhpStorm插件之Translation
  • 小波变换原理
  • 如何通俗地理解傅立叶变换?
  • T函数
  • 〔开发系列〕一次关于小程序开发的深度总结
  • Apache的80端口被占用以及访问时报错403
  • Docker入门(二) - Dockerfile
  • emacs初体验
  • extract-text-webpack-plugin用法
  • Git初体验
  • GraphQL学习过程应该是这样的
  • open-falcon 开发笔记(一):从零开始搭建虚拟服务器和监测环境
  • Rancher如何对接Ceph-RBD块存储
  • TypeScript实现数据结构(一)栈,队列,链表
  • 初探 Vue 生命周期和钩子函数
  • 基于Volley网络库实现加载多种网络图片(包括GIF动态图片、圆形图片、普通图片)...
  • 看图轻松理解数据结构与算法系列(基于数组的栈)
  • 网页视频流m3u8/ts视频下载
  • 我有几个粽子,和一个故事
  • 我与Jetbrains的这些年
  • 物联网链路协议
  • 学习使用ExpressJS 4.0中的新Router
  • 正则表达式小结
  • 《码出高效》学习笔记与书中错误记录
  • 数据可视化之下发图实践
  • ​configparser --- 配置文件解析器​
  • ​马来语翻译中文去哪比较好?
  • #QT(串口助手-界面)
  • #QT(一种朴素的计算器实现方法)
  • #vue3 实现前端下载excel文件模板功能
  • #我与Java虚拟机的故事#连载13:有这本书就够了
  • (a /b)*c的值
  • (libusb) usb口自动刷新
  • (Matalb时序预测)WOA-BP鲸鱼算法优化BP神经网络的多维时序回归预测
  • (七)c52学习之旅-中断
  • (三)Hyperledger Fabric 1.1安装部署-chaincode测试
  • (收藏)Git和Repo扫盲——如何取得Android源代码
  • ***测试-HTTP方法
  • .bat批处理(七):PC端从手机内复制文件到本地
  • .class文件转换.java_从一个class文件深入理解Java字节码结构
  • .NET Framework 4.6.2改进了WPF和安全性
  • .NET Framework Client Profile - a Subset of the .NET Framework Redistribution
  • .NET 药厂业务系统 CPU爆高分析
  • .NET/C# 避免调试器不小心提前计算本应延迟计算的值