当前位置: 首页 > news >正文

Python爬虫(1) --基础知识

爬虫

  • 爬虫是什么? spider

是一种模仿浏览器上网过程的一种程序,可以获取一些网页的数据

基础知识

  • URL

统一资源定位符 uniform resource locator

bdce42aed53c6987a10545ea9e6a1e6.png

http: 超文本传输协议 HyperText Transfer Protocol 默认端口 80

https: 安全的超文本传输协议 security 默认端口 443

www.example.com 域名

80 端口 port

/path/to/myfile.html 资源路径

?key1=value1&key2=value2 参数 & 表示多个参数的拼接

# 锚点

  • 前端代码
<!DOCTYPE html> 声明为 HTML5 文档
<html>..</html> 是网页的根元素
<head>..</head> 元素包含了文档的元(meta)数据,如 <meta charset="utf-8"> 定义网页编码格式为 utf-8。
<title>..<title> 元素描述了文档的标题
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<ul>..</ul> 定义无序列表
<ol>..</ol>定义有序列表
<li>..</li>表示列表项
<img src="" alt="">表示图片
<h1>..</h1>表示标题
<a href="">..</a>表示超链接
<!DOCTYPE html>
<html><head><!-- 内嵌样式 --><style type="text/css">body{background-color:yellow;}p{font-size: 30px;color: springgreen;}</style><meta charset="utf-8"><title>兰智数加学院</title></head><body><a href="www.anhuisjxy.com">点击访问</a><h1>兰智数加www.anhuisjxy.com</h1><h2>Python爬虫</h2><div><p>认识网页结构</p><ul><li>HTML</li><li>CSS</li></ul></div></body>
</html>
<!DOCTYPE html>
<html><head><style type="text/css">body{background-color: rgb(220, 226, 226);}</style><meta charset="utf-8"><title>兰智数加学院</title></head><body><h1 style="color: blue;">兰智数加www.anhuisjxy.com</h1><h2>Python爬虫</h2><p>点击下方按钮获取当前时间</p><button onclick="DisplayDate()">点击这里</button><p id="time" style="color: red;"></p><!-- script标签内部编写js代码 --><script>function DisplayDate(){document.getElementById("time").innerHTML=Date()}</script></div></body>
</html>

爬虫代码

  • 安装requests包
pip install requests
  • pip 换源
pip config set global.index-url https://pypi.mirrors.ustc.edu.cn/simple/
pip config set install.trusted-host pypi.mirrors.ustc.edu.cn
  • User-Agent: 身份标识 表示你是哪个浏览器

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Leetcode 2824. 统计和小于目标的下标对数目
  • 04 ES6中对象的简写
  • 深入理解PHP中的异常处理与错误日志记录
  • 关于大数据技术栈的一些总结
  • go使用gjson操作json数据
  • C++与lua联合编程
  • Inconsistent Query Results Based on Output Fields Selection in Milvus Dashboard
  • leetcode 106. 从中序与后序遍历序列构造二叉树
  • 深入分析 Android ContentProvider (三)
  • windows11 ,ubuntu20.04双系统,ubuntu没有wifi的解决方式
  • LeetCode-day20-2850. 将石头分散到网格图的最少移动次数
  • MongoDB - 数组更新操作符:$、$[]、$pop、$pull、$push、$each、$sort、$slice、$position
  • C# 时间、空间复杂度
  • STM32自己从零开始实操10:PCB全过程
  • rce漏洞-ctfshow(50-70)
  • Angularjs之国际化
  • Babel配置的不完全指南
  • Java教程_软件开发基础
  • Java精华积累:初学者都应该搞懂的问题
  • Netty+SpringBoot+FastDFS+Html5实现聊天App(六)
  • Node.js 新计划:使用 V8 snapshot 将启动速度提升 8 倍
  • PHP CLI应用的调试原理
  • Redis的resp协议
  • Spring核心 Bean的高级装配
  • Vim Clutch | 面向脚踏板编程……
  • 七牛云假注销小指南
  • 提醒我喝水chrome插件开发指南
  • 译有关态射的一切
  • Python 之网络式编程
  • 交换综合实验一
  • 如何正确理解,内页权重高于首页?
  • ​LeetCode解法汇总2670. 找出不同元素数目差数组
  • # 数仓建模:如何构建主题宽表模型?
  • # 执行时间 统计mysql_一文说尽 MySQL 优化原理
  • #70结构体案例1(导师,学生,成绩)
  • (3)Dubbo启动时qos-server can not bind localhost22222错误解决
  • (4)通过调用hadoop的java api实现本地文件上传到hadoop文件系统上
  • (C++二叉树05) 合并二叉树 二叉搜索树中的搜索 验证二叉搜索树
  • (Windows环境)FFMPEG编译,包含编译x264以及x265
  • (算法)Game
  • .NET 6 Mysql Canal (CDC 增量同步,捕获变更数据) 案例版
  • .NET MVC 验证码
  • .net mvc部分视图
  • .net wcf memory gates checking failed
  • .NET WPF 抖动动画
  • .NET4.0并行计算技术基础(1)
  • .NetCore 如何动态路由
  • .NET单元测试使用AutoFixture按需填充的方法总结
  • .net流程开发平台的一些难点(1)
  • .NET设计模式(2):单件模式(Singleton Pattern)
  • /usr/bin/perl:bad interpreter:No such file or directory 的解决办法
  • @manytomany 保存后数据被删除_[Windows] 数据恢复软件RStudio v8.14.179675 便携特别版...
  • []C/C++读取串口接收到的数据程序
  • [240621] Anthropic 发布了 Claude 3.5 Sonnet AI 助手 | Socket.IO 拒绝服务漏洞
  • [ACM] hdu 1201 18岁生日