当前位置: 首页 > news >正文

python网络爬虫(一)——网络爬虫基本原理

1.使用Beautiful Soup解析网页

  通过request库已经抓取到网页源码,接下来要从源码中找到并提取数据。Beautiful Soup是python的一个库,其主要功能是从网页中抓取数据。Beautiful Soup目前已经被移植到bs4库中,也就是说在导入Beautiful Soup时需要先安装bs4。
安装好bs4库后,还需要安装lxml库。如果我们不安装lxml库,就会使用python默认的解析器。尽管Beautiful Soup既支持python标准库中的HTML解析器,又支持一些第三方解析器,但是lxml库功能更强大,速度更快,因此笔者推荐安装lxml库。

pip3 install request
pip3 install bs4
pip3 install lxml

  Beautiful Soup库能够轻松解析网页信息,它被集成在bs4库中,需要时可以从bs4库中调用。首先,HTML文档将被转换成Unicode编码格式,然后Beautiful Soup选择最合适的解析器来解析这个文档,此处指定lxml库进行解析,解析后便将复杂的HTML文档转换成树形结构,并且每个节点都是python对象。

2.网络爬虫的基本原理

2.1网页请求

(1)Request
  每个展示在用户面前的网页都必须经过这一步,也就是向服务器发送访问请求;
(2)Response
  服务器在接收到用户的请求后,会验证请求的有效性,然后向用户(客户端)发送响应的内容;客户端接收服务器响应的内容,将内容展示出来,这就是我们所熟悉的网页请求。

2.2请求方式

(1)GET
  最常见的方式,一般用于获取或查询资源信息,参数设置在URL中,其也是大多数网站使用的方式,只需一次发送和返回,响应速度快

import requests
import json
url = 'https://blog.csdn.net/kk_lzvvkpj/article/details/138960980'
strhtml = requests.get(url)
print(strhtml.status_code)
print(strhtml.json())

  获取网页信息的代码如下:

import requests
from bs4 import BeautifulSoupurl = 'https://www.bilibili.com/video/BV1TC4y1N7dB/?spm_id_from=333.1007.0.0&vd_source=912d1bec97cad7dac820d2ba865f116a'
strhtml = requests.get(url)
print(strhtml.text)soup = BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main >div >div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)

  这里用select选择器定位数据,在定位数据时需要使用浏览器的开发者模式,将鼠标光标停留在对应的数据位置并右击,在弹出的快捷菜单中选择“检查”命令。

(2)POST
  相比GET方式,POST方式通过request body传递参数,可发送请求的信息远大于GET方式。
  Post请求数据的方式不同于GET,GET可以通过URL传递参数,而POST参数则需要放在请求实体里。接着使用request.post()方法请求表单数据,并将字符串格式的数据转换成JSON格式的数据,并根据数据结构提取数据

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 全国大学生数据建模比赛——深度学习
  • ROS Simulink 支持与限制
  • python实战一:合并多个Excel中数据
  • ios私钥证书(p12)导入失败,Windows OpenSSl 1.1.1 下载
  • iptables防火墙常用命令,运维必备
  • 【网络原理】Udp 的报文结构,保姆式教学,快速入门
  • Transformer简明笔记:文本翻译
  • 充气泵芯片|充气泵方案芯片SIC8833
  • 【专题】2024年中国游戏出海洞察报告合集PDF分享(附原数据表)
  • Redis的String和Hash
  • 网络-多路io
  • Java基于微信小程序的美食推荐小程序,附源码
  • 基于InstaSPIN-user's guide Foc电流环速度环PI参数计算过程
  • 2024年四款必备的Windows录屏工具推荐!
  • 生成对抗网络在数字病理学中的应用综述|文献精析·24-09-03
  • ES6指北【2】—— 箭头函数
  • Docker: 容器互访的三种方式
  • HTTP传输编码增加了传输量,只为解决这一个问题 | 实用 HTTP
  • HTTP中GET与POST的区别 99%的错误认识
  • Linux后台研发超实用命令总结
  • Linux链接文件
  • Markdown 语法简单说明
  • tweak 支持第三方库
  • Windows Containers 大冒险: 容器网络
  • 阿里云应用高可用服务公测发布
  • 每个JavaScript开发人员应阅读的书【1】 - JavaScript: The Good Parts
  • 实战:基于Spring Boot快速开发RESTful风格API接口
  • 【云吞铺子】性能抖动剖析(二)
  • 国内开源镜像站点
  • 直播平台建设千万不要忘记流媒体服务器的存在 ...
  • ​queue --- 一个同步的队列类​
  • ​Redis 实现计数器和限速器的
  • ​创新驱动,边缘计算领袖:亚马逊云科技海外服务器服务再进化
  • ​软考-高级-系统架构设计师教程(清华第2版)【第1章-绪论-思维导图】​
  • ## 基础知识
  • #565. 查找之大编号
  • $.ajax,axios,fetch三种ajax请求的区别
  • (11)MATLAB PCA+SVM 人脸识别
  • (8)Linux使用C语言读取proc/stat等cpu使用数据
  • (AtCoder Beginner Contest 340) -- F - S = 1 -- 题解
  • (BFS)hdoj2377-Bus Pass
  • (Java企业 / 公司项目)点赞业务系统设计-批量查询点赞状态(二)
  • (vue)el-tabs选中最后一项后更新数据后无法展开
  • (苍穹外卖)day03菜品管理
  • (附源码)spring boot儿童教育管理系统 毕业设计 281442
  • (十二)springboot实战——SSE服务推送事件案例实现
  • (原創) 系統分析和系統設計有什麼差別? (OO)
  • (中等) HDU 4370 0 or 1,建模+Dijkstra。
  • (转)【Hibernate总结系列】使用举例
  • (转)jQuery 基础
  • .md即markdown文件的基本常用编写语法
  • .net 4.0 A potentially dangerous Request.Form value was detected from the client 的解决方案
  • .NET CORE Aws S3 使用
  • .NET 应用架构指导 V2 学习笔记(一) 软件架构的关键原则
  • .NET连接数据库方式