当前位置：首页 > news >正文

python#WS002 beautifulsoup4

news 来源：原创 2024/5/8 18:13:39

pip install beautifulsoup4

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

from bs4 import BeautifulSoup
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html)
print soup.prettify()

print soup.prettify() 格式化输出

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment

[1]《Python爬虫利器二之Beautiful Soup的用法》:http://cuiqingcai.com/1319.html

相关文章：

python#WS003 爬虫规则习题

【Bugku】这是一张单纯的图片？？【writeup】

【转】隐写工具篇

[Bugku]密码？？？[writeup]

【转】Linux下的cat指令

【CodeVS 1007】级数求和

主机接口

检查针孔摄像头

2018 UESTC Training for Dynamic Programming - A 樱花坡道上的初逢

2018 UESTC Training for Dynamic Programming - J 如何才能保留那些美好

2018 UESTC Training for Dynamic Programming - L 记忆合并

zip-伪加密

[POJ - 2386]

【POJ 2823】Sliding Window 【滑动窗口/单调队列入门

【P1883】函数【三分

【译】React性能工程(下) -- 深入研究React性能调试

CSS选择器——伪元素选择器之处理父元素高度及外边距溢出

JavaScript设计模式与开发实践系列之策略模式

mockjs让前端开发独立于后端

react-core-image-upload 一款轻量级图片上传裁剪插件

SpiderData 2019年2月25日 DApp数据排行榜

Spring Cloud Alibaba迁移指南（一）：一行代码从 Hystrix 迁移到 Sentinel

SpringBoot 实战 (三) | 配置文件详解

STAR法则

百度地图API标注+时间轴组件

得到一个数组中任意X个元素的所有组合即C(n,m)

个人博客开发系列：评论功能之GitHub账号OAuth授权

前端自动化解决方案

2020 年大前端技术趋势解读

软考-高级-信息系统项目管理师教程第四版【第14章-项目沟通管理-思维导图】

总结MySQL 的一些知识点：MySQL 选择数据库

（+4）2.2UML建模图

(env: Windows,mp,1.06.2308310； lib: 3.2.4) uniapp微信小程序

(Python) SOAP Web Service (HTTP POST)

(阿里巴巴 dubbo,有数据库，可执行 )dubbo zookeeper spring demo

(附源码)计算机毕业设计ssm-Java网名推荐系统

(附源码)计算机毕业设计SSM疫情下的学生出入管理系统

（论文阅读26/100）Weakly-supervised learning with convolutional neural networks

（十二）devops持续集成开发——jenkins的全局工具配置之sonar qube环境安装及配置

（顺序）容器的好伴侣 --- 容器适配器

(原創) 如何使用ISO C++讀寫BMP圖檔? (C/C++) (Image Processing)

(中等) HDU 4370 0 or 1，建模+Dijkstra。

.NET CORE 第一节创建基本的 asp.net core

.net core 6 redis操作类

.NET 编写一个可以异步等待循环中任何一个部分的 Awaiter

.net 后台导出excel ,word

.NET开源的一个小而快并且功能强大的 Windows 动态桌面软件 - DreamScene2

@在php中起什么作用？

[20160902]rm -rf的惨案.txt

[4.9福建四校联考]

[c#基础]DataTable的Select方法

[CISCN2019 华东南赛区]Web11

[Editor]Unity Editor类常用方法

[HackMyVM]靶场 Quick3

[HDU 3555] Bomb [数位DP]