当前位置: 首页 > news >正文

初识爬虫1

学习路线:爬虫基础知识-requests模块-数据提取-selenium-反爬与反反爬-MongoDB数据库-scrapy-appium。

对应视频链接(百度网盘):正在整理中

爬虫基础知识:

1.爬虫的概念

总结:模拟浏览器,发送请求,获取响应。
2.爬虫的作用
        数据采集
        软件测试
        抢票
        网站上的投票
        网络安全
3.爬虫的分类
        数量
        是否获取数据
        url与数据的关系

 4.爬虫的流程
        url
        发请求,获取响应
        解析

5.http复习
        http以及https的概念和区别
        HTTPSH比HTTP更安全,但是性能更低
6.常见的请求头与响应头
请求头
host                                                域名
Connection                                     长连接
Upgrade-Insecure-Requests          升级为HTTPS请求
***User-Agent                                 用户代理,提供系统信息和浏览器信息
***Referer                                       页面跳转处,防盗链(图片/视频)
***Cookie                                        状态保持
响应头                                             Set-Cookie
7.状态码
所有的状态码都不可信,一切以是否从抓包得到的响应中获取到数据为准
network中抓包得到的源码才是判断依据,elements中的源码是渲染之后的源码

8.浏览器请求的过程
        发送所有请求,进行渲染
爬虫
        只发送指定请求,不会渲染


骨骼文件:html静态文件
肌肉文件:js/ajax请求
皮肤:css/font/图片

源代码        控制台        所有源代码        响应

Network:点刷新,可以看到响应

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 数据结构————栈的讲解(超详细!!!)
  • 基于SpringBoot的租房网站系统
  • AutoDL云计算GPT-SoVITS-TTS语音声色克隆语音合成
  • Rasa: Rasa Core中的相关概念及用法
  • Oracle数据恢复—Oracle数据库误删除表数据如何恢复数据?
  • WPF UpdateSourceTrigger属性
  • 使用 Milvus、vLLM 和 Llama 3.1 搭建 RAG 应用
  • STL和C++11
  • vscode设置vue标签不换行
  • 捕获和处理异常非常重要
  • 使用 C++ 获取系统时间
  • 【EI稳定,马来亚大学主办】2024年计算机与信息安全国际会议(WCCIS 2024,9月27-29)
  • 第67期 | GPTSecurity周报
  • 本地安装Ollama+WebUI
  • 基于Linux文件编程实现处理Excel表格的数据
  • 9月CHINA-PUB-OPENDAY技术沙龙——IPHONE
  • css属性的继承、初识值、计算值、当前值、应用值
  • Docker入门(二) - Dockerfile
  • iOS小技巧之UIImagePickerController实现头像选择
  • java8-模拟hadoop
  • JavaScript 事件——“事件类型”中“HTML5事件”的注意要点
  • Java深入 - 深入理解Java集合
  • KMP算法及优化
  • Mysql优化
  • nginx 负载服务器优化
  • PHP 使用 Swoole - TaskWorker 实现异步操作 Mysql
  • Python socket服务器端、客户端传送信息
  • vue-cli在webpack的配置文件探究
  • 初识 beanstalkd
  • 大型网站性能监测、分析与优化常见问题QA
  • 简单数学运算程序(不定期更新)
  • 前端工程化(Gulp、Webpack)-webpack
  • 视频flv转mp4最快的几种方法(就是不用格式工厂)
  • 写给高年级小学生看的《Bash 指南》
  • 哈罗单车融资几十亿元,蚂蚁金服与春华资本加持 ...
  • ​​​【收录 Hello 算法】9.4 小结
  • #ifdef 的技巧用法
  • %3cscript放入php,跟bWAPP学WEB安全(PHP代码)--XSS跨站脚本攻击
  • (ISPRS,2021)具有遥感知识图谱的鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类
  • (SERIES12)DM性能优化
  • (备忘)Java Map 遍历
  • (多级缓存)缓存同步
  • (二)PySpark3:SparkSQL编程
  • (二十三)Flask之高频面试点
  • (附源码)springboot社区居家养老互助服务管理平台 毕业设计 062027
  • (机器学习的矩阵)(向量、矩阵与多元线性回归)
  • (论文阅读26/100)Weakly-supervised learning with convolutional neural networks
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理第3章 信息系统治理(一)
  • (亲测)设​置​m​y​e​c​l​i​p​s​e​打​开​默​认​工​作​空​间...
  • (游戏设计草稿) 《外卖员模拟器》 (3D 科幻 角色扮演 开放世界 AI VR)
  • (转)IOS中获取各种文件的目录路径的方法
  • ***详解账号泄露:全球约1亿用户已泄露
  • .NET CF命令行调试器MDbg入门(一)
  • .Net Redis的秒杀Dome和异步执行
  • .Net 应用中使用dot trace进行性能诊断