当前位置: 首页 > news >正文

python#WS002 beautifulsoup4

pip install beautifulsoup4

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

from bs4 import BeautifulSoup
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html)
print soup.prettify()

print soup.prettify() 格式化输出

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment




[1]《Python爬虫利器二之Beautiful Soup的用法》:http://cuiqingcai.com/1319.html

相关文章:

  • python#WS003 爬虫规则习题
  • 【Bugku】这是一张单纯的图片?? 【writeup】
  • 【转】隐写工具篇
  • [Bugku]密码???[writeup]
  • 【转】Linux下的cat指令
  • 【CodeVS 1007】级数求和
  • 主机接口
  • 检查针孔摄像头
  • 2018 UESTC Training for Dynamic Programming - A 樱花坡道上的初逢
  • 2018 UESTC Training for Dynamic Programming - J 如何才能保留那些美好
  • 2018 UESTC Training for Dynamic Programming - L 记忆合并
  • zip-伪加密
  • [POJ - 2386]
  • 【POJ 2823】Sliding Window 【滑动窗口/单调队列入门
  • 【P1883】函数【三分
  • 【译】React性能工程(下) -- 深入研究React性能调试
  • CSS选择器——伪元素选择器之处理父元素高度及外边距溢出
  • JavaScript设计模式与开发实践系列之策略模式
  • mockjs让前端开发独立于后端
  • react-core-image-upload 一款轻量级图片上传裁剪插件
  • SpiderData 2019年2月25日 DApp数据排行榜
  • Spring Cloud Alibaba迁移指南(一):一行代码从 Hystrix 迁移到 Sentinel
  • SpringBoot 实战 (三) | 配置文件详解
  • STAR法则
  • 百度地图API标注+时间轴组件
  • 得到一个数组中任意X个元素的所有组合 即C(n,m)
  • 个人博客开发系列:评论功能之GitHub账号OAuth授权
  • 前端自动化解决方案
  • ​2020 年大前端技术趋势解读
  • ​软考-高级-信息系统项目管理师教程 第四版【第14章-项目沟通管理-思维导图】​
  • ​总结MySQL 的一些知识点:MySQL 选择数据库​
  • (+4)2.2UML建模图
  • (env: Windows,mp,1.06.2308310; lib: 3.2.4) uniapp微信小程序
  • (Python) SOAP Web Service (HTTP POST)
  • (阿里巴巴 dubbo,有数据库,可执行 )dubbo zookeeper spring demo
  • (附源码)计算机毕业设计ssm-Java网名推荐系统
  • (附源码)计算机毕业设计SSM疫情下的学生出入管理系统
  • (论文阅读26/100)Weakly-supervised learning with convolutional neural networks
  • (十二)devops持续集成开发——jenkins的全局工具配置之sonar qube环境安装及配置
  • (顺序)容器的好伴侣 --- 容器适配器
  • (原創) 如何使用ISO C++讀寫BMP圖檔? (C/C++) (Image Processing)
  • (中等) HDU 4370 0 or 1,建模+Dijkstra。
  • .NET CORE 第一节 创建基本的 asp.net core
  • .net core 6 redis操作类
  • .NET 编写一个可以异步等待循环中任何一个部分的 Awaiter
  • .net 后台导出excel ,word
  • .NET开源的一个小而快并且功能强大的 Windows 动态桌面软件 - DreamScene2
  • @在php中起什么作用?
  • [20160902]rm -rf的惨案.txt
  • [4.9福建四校联考]
  • [c#基础]DataTable的Select方法
  • [CISCN2019 华东南赛区]Web11
  • [Editor]Unity Editor类常用方法
  • [HackMyVM]靶场 Quick3
  • [HDU 3555] Bomb [数位DP]