4.爬虫基础——你真的了解url(网址)吗?
1.什么是URL?
URL:(Uniform Resource Locator,统一资源定位符),用于定位网络上的资源,每一个信息资源在网上都有唯一的一个地址,俗称网址。比如:打开https://www.baidu.com/,就会显示如下网页。
2.URL的组成?
URL遵守以下的语法规则:
scheme://host:port/path/?query-string=xxx#anchor
各个部分解释如下:
- scheme - 定义因特网服务的类型(访问因特网的协议)。常见的协议有 http、https、ftp、file。
- host - 主机名,域名(比如:www.baidu.com)
- port - 定义主机上的端口号(http 的默认端口号是 80 ||| https 的默认端口号为443)
- path - 定义服务器上的路径(如果省略,则文档必须位于网站的根目录中)。比如:https://blog.csdn.net/weixin_42830697/article/details/100055764【标红部分为路径】
- query-string - 定义文档/资源的名称。比如查找猫:https://www.baidu.com/s?&wd=猫
- anchor-网页锚点,前端用来做网页定位。【不用管】
解释:
(1)常见的协议:
<1>HTTP协议:超文本传输协议,是一种发布和接收HTML页面的协议。默认服务端口为80端口。也就是说,如果想利用互联网进行html页面的传输,必须遵从此协议。
<2>HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。默认服务端口为443端口。
<3>FTP协议:文件传输协议。
<4>FILE协议:本地文件传输协议。
扫描二维码即可参与该课程,解锁更多爬虫知识: