当前位置: 首页 > news >正文

Scrapy学习篇(二)之常用命令行工具

简介

Scrapy是通过Scrapy命令行工具进行控制的,包括创建新的项目,爬虫的启动,相关的设置,Scrapy提供了两种内置的命令,分别是全局命令和项目命令,顾名思义,全局命令就是在任意位置都可以执行的命令,而项目命令只有在你新创建了项目之后,在项目目录中才可以执行的命令。在这里,简单的介绍一些常用的命令。

全局命令

  • startproject

    语法: scrapy startproject <project_name>
    这个命令是scrapy最为常用的命令之一,它将会在当前目录下创建一个名为 <project_name>的项目。
  • settings

    语法: scrapy settings [options]
    该命令将会输出Scrapy默认设定,当然如果你在项目中运行这个命令将会输出项目的设定值。
  • runspider

    语法: scrapy runspider <spider_file.py>
    在未创建项目的情况下,运行一个编写在Python文件中的spider。
  • shell

    语法: scrapy shell [url]
    以给定的URL(如果给出)或者空(没有给出URL)启动Scrapy shell。
    例如,scrapy shell http://www.baidu.com将会打开百度URL,
    并且启动交互式命令行,可以用来做一些测试。
  • fetch

    语法: scrapy fetch <url>
    使用Scrapy下载器(downloader)下载给定的URL,并将获取到的内容送到标准输出。简单的来说,就是打印url的html代码。
  • view

    语法: scrapy view <url>
    在你的默认浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现。 有些时候spider获取到的页面和普通用户看到的并不相同,一些动态加载的内容是看不到的, 因此该命令可以用来检查spider所获取到的页面。
  • version

    语法: scrapy version [-v]
    输出Scrapy版本。配合 -v 运行时,该命令同时输出Python, Twisted以及平台的信息。

项目命令

  • crawl

    语法: scrapy crawl <spider_name>
    使用你项目中的spider进行爬取,即启动你的项目。这个命令将会经常用到,我们会在后面的内容中经常使用。
  • check

    语法: crapy check [-l] <spider>
    运行contract检查,检查你项目中的错误之处。
  • list

    语法: scrapy list
    列出当前项目中所有可用的spider。每行输出一个spider。
  • genspider

    语法: scrapy genspider [-t template] <name> <domain>
    在当前项目中创建spider。该方法可以使用提前定义好的模板来生成spider。您也可以自己创建spider的源码文件。

总结

上述命令中,startproject和crawl是两个核心的命令,一个是用来创建项目,一个是用来运行项目,可以说是非常的重要了,至于其他的命令,你可以自己在电脑上运行一下,看一下会出现一些什么样的信息,只需要了解一下即可,并非必须掌握。在下一个章节中,我们将会创建一个项目,并测试。

转载于:https://www.cnblogs.com/cnkai/p/7396283.html

相关文章:

  • uefi+guid分区与legacy+mbr分区_硬盘分区表格式GUID和MBR知识普及
  • excel处置4000行数据卡_数十万数据Excel数据不好处理怎么办?
  • 【学习随笔】关于php.ini的各项说明-1
  • layui获取input信息_爬虫实战:运用requests库和正则表达式爬取淘宝商品信息。
  • 分支结构if
  • opencv3和qt5计算机视觉应用开发pdf_计算机视觉方向简介 | 用深度学习进行表格提取...
  • Runtime 类
  • vue element tree 后台 数据转换_mallcloud商城vue
  • excel统计行数_WPS| 12个简单的Excel技巧,却能让造价人变得如此逆天!
  • RandomAccess接口
  • python用input输入list_python怎么用input函数输入一个列表
  • sublime text 2 卸载与重装
  • 数字图像中255表示什么_数字图像处理学习之(一):图像与图像的表示
  • 初见Hadoop—- 搭建MyEclipse 访问HDFS 上的文件
  • 有些网站打开一半空白_如何发一条空白的朋友圈
  • [case10]使用RSQL实现端到端的动态查询
  • 《微软的软件测试之道》成书始末、出版宣告、补充致谢名单及相关信息
  • 【162天】黑马程序员27天视频学习笔记【Day02-上】
  • 【comparator, comparable】小总结
  • Android 初级面试者拾遗(前台界面篇)之 Activity 和 Fragment
  • CSS 专业技巧
  • java8-模拟hadoop
  • JavaScript 基础知识 - 入门篇(一)
  • JavaScript服务器推送技术之 WebSocket
  • JS函数式编程 数组部分风格 ES6版
  • passportjs 源码分析
  • php的插入排序,通过双层for循环
  • Rancher-k8s加速安装文档
  • Spring Security中异常上抛机制及对于转型处理的一些感悟
  • SpringCloud集成分布式事务LCN (一)
  • SQLServer之创建显式事务
  • 闭包--闭包作用之保存(一)
  • 从重复到重用
  • 分享自己折腾多时的一套 vue 组件 --we-vue
  • 服务器从安装到部署全过程(二)
  • 蓝海存储开关机注意事项总结
  • 利用阿里云 OSS 搭建私有 Docker 仓库
  • 设计模式(12)迭代器模式(讲解+应用)
  • 使用common-codec进行md5加密
  • 验证码识别技术——15分钟带你突破各种复杂不定长验证码
  • 正则表达式小结
  • Java性能优化之JVM GC(垃圾回收机制)
  • 正则表达式-基础知识Review
  • #define
  • #中国IT界的第一本漂流日记 传递IT正能量# 【分享得“IT漂友”勋章】
  • (C语言版)链表(三)——实现双向链表创建、删除、插入、释放内存等简单操作...
  • (ZT)薛涌:谈贫说富
  • (多级缓存)缓存同步
  • (一)Spring Cloud 直击微服务作用、架构应用、hystrix降级
  • (一)基于IDEA的JAVA基础1
  • (中等) HDU 4370 0 or 1,建模+Dijkstra。
  • (转)Mysql的优化设置
  • (转)自己动手搭建Nginx+memcache+xdebug+php运行环境绿色版 For windows版
  • .net 7 上传文件踩坑
  • .NET Core 版本不支持的问题