当前位置：首页 > news >正文

4.爬虫基础——你真的了解url(网址)吗？

news 来源：原创 2024/9/20 22:59:59

1.什么是URL？

URL:（Uniform Resource Locator,统一资源定位符），用于定位网络上的资源，每一个信息资源在网上都有唯一的一个地址，俗称网址。比如：打开https://www.baidu.com/，就会显示如下网页。

2.URL的组成？

URL遵守以下的语法规则：

scheme://host:port/path/?query-string=xxx#anchor

各个部分解释如下：

scheme - 定义因特网服务的类型(访问因特网的协议)。常见的协议有 http、https、ftp、file。
host - 主机名，域名（比如：www.baidu.com）
port - 定义主机上的端口号（http 的默认端口号是 80 ||| https 的默认端口号为443）
path - 定义服务器上的路径（如果省略，则文档必须位于网站的根目录中）。比如：https://blog.csdn.net/weixin_42830697/article/details/100055764【标红部分为路径】
query-string - 定义文档/资源的名称。比如查找猫:https://www.baidu.com/s?&wd=猫
anchor-网页锚点，前端用来做网页定位。【不用管】

解释：

(1)常见的协议：

<1>HTTP协议：超文本传输协议，是一种发布和接收HTML页面的协议。默认服务端口为80端口。也就是说，如果想利用互联网进行html页面的传输，必须遵从此协议。

<2>HTTPS协议：是HTTP协议的加密版本，在HTTP下加入了SSL层。默认服务端口为443端口。

<3>FTP协议：文件传输协议。

<4>FILE协议：本地文件传输协议。

扫描二维码即可参与该课程，解锁更多爬虫知识：

相关文章：

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

1.爬虫数据提取——方法总结

如何从结果集中获得随机结果

2.爬虫数据提取——Xpath环境配置

Oracle9i新特性：iSQLPLUS

3.爬虫数据提取——Xpath语法

4.爬虫数据提取——lxml库的环境配置

征服---深绿大师

Why doesn't Windows 2000 retain my pagefile settings?

Anaconda的虚拟环境

CSDN Windows专区9X版版主测试题目

6.爬虫数据提取——正则表达式

近读《杨度》(又名旷代逸才)有感

5.爬虫数据提取——正则表达式

今天厦大招聘专场! 主意已定!

7.爬虫数据提取——BeautifulSoup4库

Fabric架构演变之路

HomeBrew常规使用教程

java B2B2C 源码多租户电子商城系统-Kafka基本使用介绍

Java 实战开发之spring、logback配置及chrome开发神器（六）

JAVA之继承和多态

Nodejs和JavaWeb协助开发

Shadow DOM 内部构造及如何构建独立组件

第2章网络文档

对超线程几个不同角度的解释

前端之React实战：创建跨平台的项目架构

使用 5W1H 写出高可读的 Git Commit Message

学习使用ExpressJS 4.0中的新Router

一道面试题引发的“血案”

###51单片机学习（1）-----单片机烧录软件的使用，以及如何建立一个工程项目

#{} 和 ${}区别

#AngularJS#$sce.trustAsResourceUrl

$().each和$.each的区别

（6）添加vue-cookie

（C语言版）链表（三）——实现双向链表创建、删除、插入、释放内存等简单操作...

(webRTC、RecordRTC):navigator.mediaDevices undefined

（二）JAVA使用POI操作excel

（免费领源码）python+django+mysql线上兼职平台系统83320-计算机毕业设计项目选题推荐

（删）Java线程同步实现一：synchronzied和wait()/notify()

（四）stm32之通信协议

（淘宝无限适配）手机端rem布局详解（转载非原创）

（状压dp）uva 10817 Headmaster's Headache

.NET NPOI导出Excel详解

.NET/C# 推荐一个我设计的缓存类型（适合缓存反射等耗性能的操作，附用法）

.NET版Word处理控件Aspose.words功能演示：在ASP.NET MVC中创建MS Word编辑器

.NET框架

.pub是什么文件_Rust 模块和文件 - 「译」

[240812] X-CMD 发布 v0.4.5:更新 gtb、cd、chat、hashdir 模块功能

[3D游戏开发实践] Cocos Cyberpunk 源码解读-高中低端机性能适配策略

[Asp.net MVC]Bundle合并，压缩js、css文件

[BZOJ1008][HNOI2008]越狱

[C# 网络编程系列]专题六：UDP编程

[C#基础知识系列]专题十七：深入理解动态类型

[C++] 统计程序耗时

[C++初阶]string类的详解

[Day 36] 區塊鏈與人工智能的聯動應用：理論、技術與實踐