当前位置: 首页 > news >正文

Python013--爬虫01(工具准备)

 python计算机语言在爬虫方面有着非常大的优势,能够导入几个模块,并使用这些模块来爬取我们需要的数据,一般来说,我们要爬取数据之前必须确定我们的浏览器是什么(推荐下载谷歌浏览器),要下载并安装selenium及tld。如下我们将逐一进行下载和安装。

目录

一,下载谷歌浏览器

 二,下载chromedriver

 三,下载selenium及tld


一,下载谷歌浏览器

Google Chrome 网络浏览器

 下载并安装完成之后我们再去查看谷歌浏览器的版本,在浏览器的最上面的搜索栏里面输入

chrome://version/  ,之后出现如下页面内容,显示了我们下载安装的浏览器版本:

 二,下载chromedriver

CNPM Binaries Mirror

下载之后就会得到一个zip压缩包:‘

 我们将下载后的压缩包解压,得到exe文件

再将这个exe文件放到谷歌浏览器安装的位置,一般谷歌浏览器安装的位置为:

C:\Users\ASUS\AppData\Local\Google\Chrome\Application

 最后我们再到环境变量里面编辑系统变量,将谷歌浏览器的安装目录添加进去:

 之后我们去使用cmd命令行窗口进行检测chromedriver配置是否完成,可以使用chromedriver --version,如下显示则表示成功:

 三,下载selenium及tld

selenium软件不需要我们去额外的打开浏览器,我们只需要在cmd命令行窗口上使用pip3进行下载即可:

C:\Users\ASUS>pip3 install selenium

C:\Users\ASUS>pip3 install tld

如上,相信大家也注意到了在我无论是下载selenium还是tld时,下载之后都会带有后面的黄色字体,来提示pip的版本太低了,我们需要进行升级,并且给出了具体的升级命令:

python -m pip install --upgrade pip

那么我就将它复制并在cmd里面执行:

 之后我们可以使用命令pip3 list来查看我们安装的程序有哪些:

 我们可以看到selenium以及tld程序都已经下载成功,之后我们就可以使用它们来进行爬虫代码的编写了。

以上就是在Windows本地上可以实现爬虫功能必备的准备。如果有问题请在评论区留言。

相关文章:

  • 有营养的算法笔记五
  • 网络安全实战之靶场渗透技术
  • Vue项目使用百度地图api
  • RabbitMQ--基础--02--原理
  • 网页设计与开发-实验报告-1
  • 电阻应变式力传感器
  • 深度学习数据集最常见的6大问题
  • 打开算法之门,算法学习瓶颈、学习方法
  • Mybatis的事务管理机制。
  • 微信小程序通过字典表匹配对应数据
  • 嵌入式系统开发笔记102:DEV C++的使用
  • 37.(前端)菜单的展示
  • 计算机的硬件(计算机组成原理)
  • Linux权限理解
  • 注册商标的重要性
  • hexo+github搭建个人博客
  • .pyc 想到的一些问题
  • [译]如何构建服务器端web组件,为何要构建?
  • Angular Elements 及其运作原理
  • Bytom交易说明(账户管理模式)
  • create-react-app做的留言板
  • hadoop集群管理系统搭建规划说明
  • HTML-表单
  • Iterator 和 for...of 循环
  • JavaScript HTML DOM
  • log4j2输出到kafka
  • nginx 配置多 域名 + 多 https
  • Spring Cloud(3) - 服务治理: Spring Cloud Eureka
  • vue自定义指令实现v-tap插件
  • 从 Android Sample ApiDemos 中学习 android.animation API 的用法
  • 理解在java “”i=i++;”所发生的事情
  • 前端自动化解决方案
  • 如何使用 JavaScript 解析 URL
  • 用 vue 组件自定义 v-model, 实现一个 Tab 组件。
  • ​iOS安全加固方法及实现
  • ​软考-高级-信息系统项目管理师教程 第四版【第14章-项目沟通管理-思维导图】​
  • ###项目技术发展史
  • #pragam once 和 #ifndef 预编译头
  • #宝哥教你#查看jquery绑定的事件函数
  • $.ajax,axios,fetch三种ajax请求的区别
  • $emit传递多个参数_PPC和MIPS指令集下二进制代码中函数参数个数的识别方法
  • (01)ORB-SLAM2源码无死角解析-(66) BA优化(g2o)→闭环线程:Optimizer::GlobalBundleAdjustemnt→全局优化
  • (ctrl.obj) : error LNK2038: 检测到“RuntimeLibrary”的不匹配项: 值“MDd_DynamicDebug”不匹配值“
  • (Redis使用系列) Springboot 使用redis的List数据结构实现简单的排队功能场景 九
  • (附源码)springboot 基于HTML5的个人网页的网站设计与实现 毕业设计 031623
  • (计算机网络)物理层
  • (杂交版)植物大战僵尸
  • (转)Mysql的优化设置
  • .htaccess配置常用技巧
  • .net core 调用c dll_用C++生成一个简单的DLL文件VS2008
  • .NET/ASP.NETMVC 大型站点架构设计—迁移Model元数据设置项(自定义元数据提供程序)...
  • .NET/C# 将一个命令行参数字符串转换为命令行参数数组 args
  • :=
  • @Autowired和@Resource的区别
  • @DataRedisTest测试redis从未如此丝滑