当前位置: 首页 > news >正文

Python爬虫——解析库安装(1)

目录

  • 1.lxml安装
  • 2.Beautiful Soup安装
  • 3.pyquery 的安装

我创建了一个社区,欢迎大家一起学习交流。社区名称:Spider学习交流

注:该系列教程已经默认用户安装了Pycharm和Anaconda,未安装的可以参考我之前的博客有将如何安装。同时默认用户掌握了Python基础语法。

抓取网页代码之后,接着是从网页中提取信息,提取信息的方式有很多,可以使用正则来提取 ,但是写起来相对比较烦琐 。
在这用这些强大的解析库进行处理,,如 lxml、Beautiful Soup、pyquery等。

1.lxml安装

lxml是Python一个解析库,支持 HTML和XML解析,支持 XPath 解析方式,而且解析效率高。

#1.打开anaconda prompt
#2.激活前面创建的conda虚拟环境
conda activate spider
#3.输入下述代码进行安装
conda install lxml#验证是否安装成功
#4.输入
python
#5.导入该包
import lxml

1.安装界面
在这里插入图片描述

2.验证是否成功安装
在这里插入图片描述

2.Beautiful Soup安装

Beautiful Soup是Python的HTML和XML的解析库,它拥有强大的 API和多样的解析方式。
安装方法同上。

给大家放个网址,大家可以自己查看。
Beautiful Soup 4.12.0
大家可以进去网址可以知道3已经停止开发,因此我们安装4.
大家有时间,可以学学HTML(CSS+javascript)很有帮助,主要好理解。

#1.打开anaconda prompt
#2.激活前面创建的conda虚拟环境
conda activate spider
#3.输入下述代码进行安装
conda install beautifulsoup4#验证是否安装成功
#4.输入
python
#5.导入该包
from bs4 import BeautifulSoup 
soup = BeautifulSoup('<p>Hello World!<p/>','lxml')
print(soup.p.string)

1.安装界面
在这里插入图片描述

2.验证
在这里插入图片描述

3.pyquery 的安装

pyquery是个很强大的网页解析工具,它提供了和 jQuery 类似的语法来解析HTML 文梢,支持css 择器。

#1.打开anaconda prompt
#2.激活前面创建的conda虚拟环境
conda activate spider
#3.输入下述代码进行安装
conda install pyquery
#验证是否安装成功
#4.输入
python
#5.导入该包
import pyquery

1.安装
在这里插入图片描述
2.验证是否成功安装,如下图无报错,即成功安装
在这里插入图片描述

相关文章:

  • 【操作系统】Ubuntu Swap内存扩容
  • 【30秒看懂大数据】数据标准
  • AlmaLinux更换鼠标样式为Windows样式
  • WordPress函数wptexturize的介绍及用法示例,字符串替换为HTML实体
  • 随机过程及应用学习笔记(四) 马尔可夫过程
  • LLVM实战之LLVM bitcode转换成目标平台汇编码
  • 【30秒看懂大数据】数据中台
  • 不到1s生成mesh! 高效文生3D框架AToM
  • Java学习网络编程
  • Apache 神禹(shenyu)源码阅读(三)——被网关路由的后端服务 Client 向 Admin 注册的数据传输(Client端)
  • 计算机网络概述习题拾遗
  • 【程序设计竞赛】C++与Java的细节优化
  • ch3-homework-基于InternLM和LangChain搭建自己的知识库
  • MySQL:常用指令
  • 物联网技术的崛起:驱动智慧景区的新篇章
  • 【391天】每日项目总结系列128(2018.03.03)
  • bearychat的java client
  • CSS盒模型深入
  • input实现文字超出省略号功能
  • JavaScript对象详解
  • JAVA并发编程--1.基础概念
  • leetcode386. Lexicographical Numbers
  • PHP 7 修改了什么呢 -- 2
  • python docx文档转html页面
  • rabbitmq延迟消息示例
  • React中的“虫洞”——Context
  • windows下mongoDB的环境配置
  • 从 Android Sample ApiDemos 中学习 android.animation API 的用法
  • 欢迎参加第二届中国游戏开发者大会
  • 两列自适应布局方案整理
  • 深入浏览器事件循环的本质
  • 我是如何设计 Upload 上传组件的
  • 一道面试题引发的“血案”
  • 一天一个设计模式之JS实现——适配器模式
  • AI算硅基生命吗,为什么?
  • (Git) gitignore基础使用
  • (Python第六天)文件处理
  • (附源码)springboot宠物管理系统 毕业设计 121654
  • (附源码)ssm航空客运订票系统 毕业设计 141612
  • (官网安装) 基于CentOS 7安装MangoDB和MangoDB Shell
  • (九十四)函数和二维数组
  • (免费领源码)Java#Springboot#mysql农产品销售管理系统47627-计算机毕业设计项目选题推荐
  • (企业 / 公司项目)前端使用pingyin-pro将汉字转成拼音
  • (强烈推荐)移动端音视频从零到上手(下)
  • (一) storm的集群安装与配置
  • (转)人的集合论——移山之道
  • .bat批处理(十):从路径字符串中截取盘符、文件名、后缀名等信息
  • .chm格式文件如何阅读
  • .Net 8.0 新的变化
  • .Net Core webapi RestFul 统一接口数据返回格式
  • .NET Core 实现 Redis 批量查询指定格式的Key
  • .NET Framework 4.6.2改进了WPF和安全性
  • .NET/C# 利用 Walterlv.WeakEvents 高性能地中转一个自定义的弱事件(可让任意 CLR 事件成为弱事件)
  • @property python知乎_Python3基础之:property
  • [20150629]简单的加密连接.txt