当前位置：首页 > news >正文

提升Scrapy框架爬取数据效率的五种方式

news 来源：原创 2024/5/19 21:51:13

1、增加并发线程开启数量

　　settings配置文件中，修改CONCURRENT_REQUESTS = 100,默认为32，可适当增加；

2、降低日志级别

　　运行scrapy时会产生大量日志占用CPU，为减少CPU使用率，可修改log输出级别

　　settings配置文件中LOG_LEVEL='ERROR' 或 LOG_LEVEL = 'INFO' ；

3、禁止cookie

　　scrapy默认自动保存cookie，占用CPU，如果不是真的需要cookie，可设置为不保存cookie，以减少CPU使用率，

　　settings配置文件中：COOKIES_ENABLED = False 解开注释

4、禁止请求重试：

　　对于失败的请求会重新发送，则会减慢爬取速度，因此可以在对丢失少量数据也不影响时，禁止重试，

　　settings配置文件中加：RETRY_ENABLED = False ；

5、减少下载超时:

　　如果对一个非常慢的链接进行爬取，减少下载超时可以让卡住的链接快速被放弃，从而提升效率，

　　在settings配置文件中进行编写：DOWNLOAD_TIMEOUT = 10 设置超时时间；

转载于:https://www.cnblogs.com/jayxuan/p/10840068.html

详解Linux运维工程师必备技能

c++实现字符串分割函数--split（）

基于预计算的全局光照技术

java实现多线程（下）

球谐光照——杂谈——待完成

基于体素的全局光照技术

路径追踪技术

辐射度方法

[计算机体系结构:量化研究方法]学习笔记：Chapter 1

基于预计算辐射传递的全局光照技术

傅里叶变换

PhpStorm插件之Translation

小波变换原理

如何通俗地理解傅立叶变换？

T函数

〔开发系列〕一次关于小程序开发的深度总结

Apache的80端口被占用以及访问时报错403

Docker入门（二） - Dockerfile

emacs初体验

extract-text-webpack-plugin用法

Git初体验

GraphQL学习过程应该是这样的

open-falcon 开发笔记（一）：从零开始搭建虚拟服务器和监测环境

Rancher如何对接Ceph-RBD块存储

TypeScript实现数据结构（一）栈，队列，链表

初探 Vue 生命周期和钩子函数

基于Volley网络库实现加载多种网络图片（包括GIF动态图片、圆形图片、普通图片）...

看图轻松理解数据结构与算法系列(基于数组的栈)

网页视频流m3u8/ts视频下载

我有几个粽子，和一个故事

我与Jetbrains的这些年

物联网链路协议

学习使用ExpressJS 4.0中的新Router

正则表达式小结

《码出高效》学习笔记与书中错误记录

数据可视化之下发图实践

configparser --- 配置文件解析器

马来语翻译中文去哪比较好？

#QT(串口助手-界面)

#QT（一种朴素的计算器实现方法）

#vue3 实现前端下载excel文件模板功能

#我与Java虚拟机的故事#连载13：有这本书就够了

(a /b)*c的值

(libusb) usb口自动刷新

（Matalb时序预测）WOA-BP鲸鱼算法优化BP神经网络的多维时序回归预测

（七）c52学习之旅-中断

（三）Hyperledger Fabric 1.1安装部署-chaincode测试

(收藏）Git和Repo扫盲——如何取得Android源代码

***测试-HTTP方法

.bat批处理（七）：PC端从手机内复制文件到本地

.class文件转换.java_从一个class文件深入理解Java字节码结构

.NET Framework 4.6.2改进了WPF和安全性

.NET Framework Client Profile - a Subset of the .NET Framework Redistribution

.NET 药厂业务系统 CPU爆高分析

.NET/C# 避免调试器不小心提前计算本应延迟计算的值

相关文章：