当前位置: 首页 > news >正文

4.爬虫基础——你真的了解url(网址)吗?

1.什么是URL?

URL:(Uniform Resource Locator,统一资源定位符),用于定位网络上的资源,每一个信息资源在网上都有唯一的一个地址,俗称网址。比如:打开https://www.baidu.com/,就会显示如下网页。

2.URL的组成?

URL遵守以下的语法规则:

scheme://host:port/path/?query-string=xxx#anchor

各个部分解释如下:

  • scheme - 定义因特网服务的类型(访问因特网的协议)。常见的协议有 http、https、ftp、file。
  • host - 主机名,域名(比如:www.baidu.com)
  • port - 定义主机上的端口号(http 的默认端口号是 80 ||| https 的默认端口号为443)
  • path - 定义服务器上的路径(如果省略,则文档必须位于网站的根目录中)。比如:https://blog.csdn.net/weixin_42830697/article/details/100055764【标红部分为路径】
  • query-string - 定义文档/资源的名称。比如查找猫:https://www.baidu.com/s?&wd=猫
  • anchor-网页锚点,前端用来做网页定位。【不用管】

解释:

(1)常见的协议:

<1>HTTP协议:超文本传输协议,是一种发布和接收HTML页面的协议。默认服务端口为80端口。也就是说,如果想利用互联网进行html页面的传输,必须遵从此协议。

<2>HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。默认服务端口为443端口。

<3>FTP协议:文件传输协议。

<4>FILE协议:本地文件传输协议。


扫描二维码即可参与该课程,解锁更多爬虫知识:

 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 1.爬虫数据提取——方法总结
  • 如何从结果集中获得随机结果
  • 2.爬虫数据提取——Xpath环境配置
  • Oracle9i新特性:iSQLPLUS
  • 3.爬虫数据提取——Xpath语法
  • 4.爬虫数据提取——lxml库的环境配置
  • 征服---深绿大师
  • Why doesn't Windows 2000 retain my pagefile settings?
  • Anaconda的虚拟环境
  • CSDN Windows专区9X版版主测试题目
  • 6.爬虫数据提取——正则表达式
  • 近读《杨度》(又名旷代逸才)有感
  • 5.爬虫数据提取——正则表达式
  • 今天厦大招聘专场! 主意已定!
  • 7.爬虫数据提取——BeautifulSoup4库
  • Fabric架构演变之路
  • HomeBrew常规使用教程
  • java B2B2C 源码多租户电子商城系统-Kafka基本使用介绍
  • Java 实战开发之spring、logback配置及chrome开发神器(六)
  • JAVA之继承和多态
  • Nodejs和JavaWeb协助开发
  • Shadow DOM 内部构造及如何构建独立组件
  • 第2章 网络文档
  • 对超线程几个不同角度的解释
  • 前端之React实战:创建跨平台的项目架构
  • 使用 5W1H 写出高可读的 Git Commit Message
  • 学习使用ExpressJS 4.0中的新Router
  • 一道面试题引发的“血案”
  • ###51单片机学习(1)-----单片机烧录软件的使用,以及如何建立一个工程项目
  • #{} 和 ${}区别
  • #AngularJS#$sce.trustAsResourceUrl
  • $().each和$.each的区别
  • (6)添加vue-cookie
  • (C语言版)链表(三)——实现双向链表创建、删除、插入、释放内存等简单操作...
  • (webRTC、RecordRTC):navigator.mediaDevices undefined
  • (二)JAVA使用POI操作excel
  • (免费领源码)python+django+mysql线上兼职平台系统83320-计算机毕业设计项目选题推荐
  • (删)Java线程同步实现一:synchronzied和wait()/notify()
  • (四)stm32之通信协议
  • (淘宝无限适配)手机端rem布局详解(转载非原创)
  • (状压dp)uva 10817 Headmaster's Headache
  • .NET NPOI导出Excel详解
  • .NET/C# 推荐一个我设计的缓存类型(适合缓存反射等耗性能的操作,附用法)
  • .NET版Word处理控件Aspose.words功能演示:在ASP.NET MVC中创建MS Word编辑器
  • .NET框架
  • .pub是什么文件_Rust 模块和文件 - 「译」
  • [240812] X-CMD 发布 v0.4.5:更新 gtb、cd、chat、hashdir 模块功能
  • [3D游戏开发实践] Cocos Cyberpunk 源码解读-高中低端机性能适配策略
  • [Asp.net MVC]Bundle合并,压缩js、css文件
  • [BZOJ1008][HNOI2008]越狱
  • [C# 网络编程系列]专题六:UDP编程
  • [C#基础知识系列]专题十七:深入理解动态类型
  • [C++] 统计程序耗时
  • [C++初阶]string类的详解
  • [Day 36] 區塊鏈與人工智能的聯動應用:理論、技術與實踐