当前位置：首页 > news >正文

Python爬虫——1爬虫基础（一步一步慢慢来）

news 来源：原创 2024/9/21 10:19:28

一、爬虫是什么？（spider）

Python 爬虫是利用编程语言 Python 来获取互联网上的数据的技术。它可以自动化地访问网页、提取信息并进行数据处理。以下是Python爬虫的基础知识和步骤：

主要特点和功能：

自动化浏览：爬虫程序能够自动访问和浏览互联网上的各种网页，而无需人工干预。
信息抓取：爬虫根据预定的规则和算法，从网页的HTML源码中提取所需的数据。这些数据可以是文本、图片、视频、超链接等。
广泛应用：爬虫在搜索引擎索引网页、价格比较网站、新闻聚合、社交媒体分析等领域广泛应用。它们可以帮助自动化地收集和分析大量的数据。

工作原理：

发送请求：爬虫首先向目标网站发送HTTP请求，请求特定的网页内容。
获取响应：网站接收请求后，返回相应的HTML或XML等格式的页面数据。
解析页面：爬虫利用解析器（如Beautiful Soup）分析和解释页面的结构和内容，以便定位和提取所需数据。
存储数据：提取到的数据通常会被存储到文件、数据库或其他数据存储系统中，以备后续分析和使用。

应用举例：

搜索引擎：爬虫帮助搜索引擎建立和更新网页索引，使得用户可以通过关键词搜索快速找到相关网页。
价格比较：电商网站使用爬虫收集竞争对手的价格信息，帮助制定价格策略。
新闻聚合：爬虫从多个新闻网站抓取新闻内容，形成一个汇总的新闻平台。

二、基础知识

1.URL：

URL（统一资源定位符）是用于标识和定位互联网上资源的地址。它是通过一种标准化的格式来描述网络资源的位置和访问方式。URL通常由多个部分组成，包括协议、域名或IP地址、路径、查询参数和片段等，具体格式如下：

scheme://host:port/path?query#fragment
https://mp.csdn.net/mp_blog/creation/editor?spm=1001.2014.3001.4503#本网站

协议（Scheme）：指定访问资源所使用的协议或者服务类型。常见的协议包括：
- http：超文本传输协议，用于传输网页数据。
- https：安全超文本传输协议，使用SSL加密传输网页数据，更安全。
- ftp：文件传输协议，用于在网络上传输文件。
主机（Host）：指定资源所在的主机名或者IP地址。例如，www.example.com 或者 192.168.1.1。
端口（Port，可选）：指定访问资源时使用的端口号。大部分情况下，如果未指定，默认使用协议默认的端口（如HTTP默认端口为80，HTTPS默认端口为443）。
路径（Path，可选）：指定服务器上资源的具体路径或者文件名。例如，/index.html。
查询参数（Query，可选）：传递给服务器的额外参数，通常以键值对的形式存在，多个参数之间使用 & 分隔。例如，?page=2&category=python。
片段（Fragment，可选）：标识资源中的一个片段或位置，通常用于直接定位到网页的某个部分。例如，#section2。

URL被广泛用于网页浏览、API调用、文件下载等场景，是互联网上资源定位的标准方式。浏览器和各种网络应用程序通过解析和使用URL来访问并获取所需的网络资源。

三、前端代码

我们使用爬虫的时候会需要我们解析前端代码，我们使用爬虫时了解前端代码是必须的。

<!DOCTYPE html> 声明为 HTML5 文档
<html>..</html> 是网页的根元素
<head>..</head> 元素包含了文档的元（meta）数据，如 <meta charset="utf-8"> 定义网页编码格式为 utf-8。
<title>..<title> 元素描述了文档的标题
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<ul>..</ul> 定义无序列表
<ol>..</ol>定义有序列表
<li>..</li>表示列表项
<img src="" alt="">表示图片
<h1>..</h1>表示标题
<a href="">..</a>表示超链接