当前位置: 首页 > news >正文

爬虫的流程

爬虫的流程

  • 获取网页
  • 提取信息
  • 保存数据
  • 自动化程序
  • 能爬怎样的数据

获取网页

  • 获取网页就是获取网页的源代码,源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息
  • 浏览器访问网页的本质:浏览器向服务器发送请求——>返回的响应体便是网页源代码——>浏览器解析源代码呈现页面
  • python访问网页的本质:python利用urllib、requests等库实现HTTP请求——>由response等库获取响应,得到响应之后需要解析数据结构中的 body 部分得到网页的源代码——>。。。

提取信息

  • 由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
  • 利用正则表达式来提取想要的数据

保存数据

  • 提取信息后,我们一般会将提取到的数据保存到某处以便后续使用
  • 保存形式:可以简单保存为 TXT 文本或 JSON 文本,也可以保存到数据库,如 MySQL

自动化程序

  • 自动化程序:意思是说爬虫可以代替人来完成这些操作。(数量特别大时)

能爬怎样的数据

能对应URL,基于HTTP或HTTPS协议的,都可以抓取

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【Docker】Docker 常见问题及解决方案
  • MyBatis-Plus 分页插件
  • Gitee基本指令操作
  • 华硕电脑用U盘方式重装系统
  • 【iOS】push和pop、present和dismiss
  • 记某学校小程序漏洞挖掘
  • 13年408计算机考研-计算机网络
  • 深度解读 2024 Gartner DevOps 魔力象限
  • 基于YOLOv5s的无人机航拍输电线瓷瓶检测(附数据集与操作步骤)
  • LLM - 理解 多模态大语言模型(MLLM) 的 对齐微调(Alignment) 与相关技术 (五)
  • DK5V100R20HL贴片12V 2.7A同步整流芯片
  • TensorRT-LLM——优化大型语言模型推理以实现最大性能的综合指南
  • 多目相机贴图
  • 【项目】多设计模式下的同步异步日志系统
  • R包:VennDiagram韦恩图
  • CentOS6 编译安装 redis-3.2.3
  • DOM的那些事
  • go语言学习初探(一)
  • HTML-表单
  • Java编程基础24——递归练习
  • js作用域和this的理解
  • node和express搭建代理服务器(源码)
  • PHP的Ev教程三(Periodic watcher)
  • Puppeteer:浏览器控制器
  • python学习笔记-类对象的信息
  • SQLServer之创建显式事务
  • Travix是如何部署应用程序到Kubernetes上的
  • WinRAR存在严重的安全漏洞影响5亿用户
  • 好的网址,关于.net 4.0 ,vs 2010
  • 今年的LC3大会没了?
  • 前端路由实现-history
  • 使用SAX解析XML
  • 系统认识JavaScript正则表达式
  • 正则表达式小结
  • linux 淘宝开源监控工具tsar
  • Python 之网络式编程
  • 专访Pony.ai 楼天城:自动驾驶已经走过了“从0到1”,“规模”是行业的分水岭| 自动驾驶这十年 ...
  • ​​​​​​​​​​​​​​Γ函数
  • ​LeetCode解法汇总1410. HTML 实体解析器
  • #define用法
  • (6) 深入探索Python-Pandas库的核心数据结构:DataFrame全面解析
  • (ibm)Java 语言的 XPath API
  • (Mac上)使用Python进行matplotlib 画图时,中文显示不出来
  • (动手学习深度学习)第13章 计算机视觉---图像增广与微调
  • (附源码)spring boot球鞋文化交流论坛 毕业设计 141436
  • (蓝桥杯每日一题)love
  • (学习日记)2024.04.10:UCOSIII第三十八节:事件实验
  • .bat文件调用java类的main方法
  • .Net OpenCVSharp生成灰度图和二值图
  • .NET 程序如何获取图片的宽高(框架自带多种方法的不同性能)
  • .netcore 6.0/7.0项目迁移至.netcore 8.0 注意事项
  • .NET版Word处理控件Aspose.words功能演示:在ASP.NET MVC中创建MS Word编辑器
  • :“Failed to access IIS metabase”解决方法
  • @Controller和@RestController的区别?
  • @基于大模型的旅游路线推荐方案