当前位置: 首页 > news >正文

计算机字符编码的发展

目录

背景

发展

第一阶段:ASCII编码

第二阶段:扩展ASCII编码

第三阶段:各国编码

第四阶段:Unicode编码

第五阶段:UTF系列编码方式

相关扩展


背景

在计算机诞生初期,所有的数据都是基于二进制数(0和1)来表示的。如果人类直接操作二进制数据会出现很多问题(如可读性差、易出错等),为了解决这个问题(让计算机能够理解和处理人类语言),方便人类使用计算机,一种相关技术就应运而生,这就是字符编码(一套将人类语言转换为二进制数据的规则或系统)。


发展

第一阶段:ASCII编码

遇到的问题:在计算机发展的早期,当时计算机开始普及并需要进行字符的传输和存储。然而,由于各种计算机系统和程序使用的字符表示方式不尽相同,导致文本数据在交换和处理时容易出现混乱和错误。

解决方案:为了解决不同计算机系统之间字符编码不一致的问题,ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)就此诞生。

PS:字符编码中最小的存储单位是字节,而标准ASCII只使用了7位(最高位为0)。标准ASCII只能表示128个不同的字符(主要用于表示英文字符、数字、标点符号和控制字符等)。


第二阶段:扩展ASCII编码

遇到的问题:由于计算机最初是由美国人发明的,因此ASCII编码主要基于英文字符集进行设计。如果计算机只在美国使用的话,也没有什么太大的问题,但是后来其它国家也开始使用计算机的时候,发现它们国家里面的字符根本不在这128个字符里面。

解决方案:其它国家在原有的ASCII码基础上进行扩展,就是将原来二进制数最高位的0变为1,也就是从128扩展到255(等于新增的128个字符)对应ASCII码叫作扩展ASCII码。通过对ASCII码的扩展,似乎解决了一些欧洲国家的字符编码问题。


第三阶段:各国编码

遇到的问题:随着计算机应用的全球化和多语言环境的出现,各国因语言不同,标准的ASCII编码已不满足。而扩展ASCII码并没有一个统一的国际标准,因此不同的系统、平台或编程语言可能采用不同的扩展ASCII码表。这可能会导致在不同环境之间交换文本数据时出现字符编码不兼容的问题。

解决方案:各国开始发展自己的字符编码标准,以满足本国语言和字符的表示需求。这些编码标准通常与ASCII码和扩展ASCII码有所不同,并具有更大的字符集和更复杂的编码规则。

PS:我国与之对应的编码是GB2312字符编码和对GB2312进行扩充的GBK字符编码等主要用于表示中文字符。其中GBK编码于1995年12月正式发布。


第四阶段:Unicode编码

遇到的问题:随着全球化的进一步推进,各国之间的信息交流愈加的频繁,而各国编码并没有一个统一的国际标准,各种编码标准之间产生冲突和乱码问题。

解决方案:需要一种能够统一表示全球各种字符的编码方案,以解决各国编码带来的兼容性问题。这个时候提出了Unicode(统一码、万国码、单一码)这样的一个标准。Unicode标准定义了世界上几乎所有书写系统中的字符的码点(code points),即给每个字符分配了一个唯一的数字标识符(通常是一个16位或32位的整数)。

PS:Unicode只定义了字符的码点,相等于是一个标准的字符集。具体的字符编码取决与使用的Unicode的编码方式。

Unicode最初编码方式的演变:

因Unicode编码本身并不直接指定这些码点如何存储在计算机中,最初的它使用16位(即固定的两个字节)的编码空间,采用了类似UCS-2固定宽度的编码方式。但由于字符数量的增加,最多只能表示65,536个(2^16)不同的字符,需要表示的字符数量远远超出了16位所能表示的范围。(主要概况就是:设计的局限性显现)

为了解决16位编码空间的局限性,Unicode标准引入了两种主要的解决方案:

  1. 类似于UCS-4编码方式:即使用更多的位数(通常是32位或4个字节,也就是将近43亿[2^32])来表示每个字符,从而扩大编码空间。这种方式基本上就能涵盖世界上所有的字符了。但是这样的编码规则并没有被世界各国很好的接受,因为这种方式会增加存储和传输的成本(每个字符固定了4个字节)。
  2. 支持额外的机制:在保留16位编码空间的同时,引入额外的机制来表示超出16位编码范围的字符。这主要通过使用“代理对”(surrogate pairs)来实现,即使用两个16位的编码单元来表示一个超出基本多语言平面(BMP)的字符。这种方式能够在不大幅增加存储和传输成本的前提下,支持更多的字符。但这种方式会使得编码和解码过程变得复杂。

补充:在Unicode字符集的发展历史中,有两个主要的组织或项目在推动单一字符集的创建:国际标准化组织(ISO)于1984年创建的通用字符集(Universal Character Set, UCS),这后来由ISO 10646(或称ISO/IEC 10646)标准所定义;另一个是由一些软件制造商(如Xerox、Apple等)于1988年成立的Unicode团队。这两个项目在初期是独立的,但随着时间的推移,他们意识到世界不需要两个不兼容的字符集,因此开始合并双方的工作成果,为创建一个单一编码表而协同工作(从Unicode 2.0开始,Unicode的编码与ISO/IEC 10646标准(UCS)实现了一致,两者共享相同的字符编码和字符集)。随着技术的发展和标准化工作的推进,现编码中UCS编码已经合并到Unicode编码中了。

这里再补充一个点:UCS字符集包含UCS-2编码方式和UCS-4编码方式,UCS的开发进度快于Unicode,1990年就公布了第一套编码方法UCS-2。后续Unicode在1996年7月公布,明确宣布是UCS-2的超集。


第五阶段:UTF系列编码方式

介绍:因Unicode编码本身并不直接指定这些码点如何存储在计算机中,它定义了多种编码形式,其中UTF(Unicode Transformation Format)系列是一种用于编码Unicode字符集的字符编码方式。

遇到的问题:虽然Unicode字符集包含了全球各种字符,但最初编码方式存在的问题,如编码长度固定和不同编码方式之间的冲突,限制了存储和传输效率。所以说Unicode标准推出了很长一段时间,并没有被广泛接受,直到后面互联网时代的来临,各国之间的信息交流愈加的频繁,这时候不得不对编码进行重新思考。

解决方案:为了解决这些问题,UTF系列编码方式应运而生,其中最具代表性的是UTF-8。

UTF系列,全称为Unicode Transformation Format,是用于表示Unicode字符集的一种字符编码方式。UTF系列包括UTF-8、UTF-16和UTF-32三种主要编码类型,每种类型都有其特定的应用场景和优势。

以下是关于UTF系列的详细说明:

  • UTF-8
    • 特点:一种可变长度的Unicode编码方式,优点之一是节省空间,它使用1到4个字节来编码Unicode字符。UTF-8编码在表示ASCII字符时与ASCII编码兼容,即ASCII字符在UTF-8中的编码与它们在ASCII中的编码相同,都是单个字节。这使得UTF-8在处理以ASCII字符为主的文本时具有更高的效率。
    • 使用场景:广泛应用于互联网和计算机系统中,如网页编码、文件存储等。
  • UTF-16
    • 特点:UTF-16可以看作是UCS-2的父集(源于UCS-2)。它是固定或可变长度的,取决于字符的Unicode代码点。在没有辅助平面字符之前,UTF-16与UCS-2是相同的,都使用两个字节表示字符。但是,当引入辅助平面字符后,UTF-16扩展为能够表示更多字符的编码方式。( UTF-16 通常使用 2 个字节来编码字符,但当遇到辅助平面内的字符时,它需要使用 4 个字节(两个 16 位单元)来编码。这种设计使得 UTF-16 在处理常用字符时非常高效(只需要 2 个字节),同时又能支持整个 Unicode 字符集。然而,这也使得 UTF-16 的编码长度不是完全固定的,需要根据具体的字符来确定)
    • 使用场景:操作系统、编程语言、数据库等需要表示Unicode字符的场景,特别是在Windows操作系统中,UTF-16是默认的字符编码方式。
  • UTF-32
    • 特点:始终使用固定长度4个字节表示一个Unicode字符。这种编码方式对于处理Unicode字符非常直接,但可能会浪费存储空间。(UTF-32与UCS-4在编码方式上非常相似,都是使用四个字节的固定长度来表示每个字符)
    • 使用场景:需要严格区分字符和编码的场景,如文本编辑器、网页开发等。

至此,以上就是字符编码的大致发展历程。


相关扩展

  • 字符编码是编码的一个子集。
  • 字符编码整个过程包括字符集、码点、编码方式、编码、解码。
    • 字符集是整个字符编码的基础,表示该字符编码中所有字符的集合。
    • 码点是字符集为每个字符分配的一个唯一的数字编号作为码点,用于在计算机中唯一标识该字符。
    • 用于将字符映射到特定的字节序列称为编码方式(是一种映射规则)。
    • 编码是将字符转为二进制数的过程。
    • 解码是编码的逆过程,将二进制数转为字符。
  • 每一种字符编码都有一种字符集和码表(Unicode字符集有多种编码方式)。
  • 使用不同编码方式进行编码和解码会产生乱码。
  • UTF-8编码中文需要占3个字节,GBK编码中文需要占2个字节。【因UTF-8编码和GBK编码都兼容了ASCII编码,所以对于ASCII字符(包括英文字母、数字和一些标点符号)使用1个字节】

相关文章:

  • 机器学习(五) -- 监督学习(4) -- 集成学习方法-随机森林
  • CSP垦田计划
  • 磁带存储:“不老的传说”依然在继续
  • 数据结构(八)二叉树、哈希查找
  • Codeforces Round 948 (Div. 2) E. Tensor(思维题-交互)
  • 【前端学习——react坑】useState使用
  • 【AI基础】数据获取与整理、打标、增强方法、增强库imgaug
  • 【Linux】初识Linux和Linux环境配置
  • uniapp一些问题解决
  • 【国产中颖】SH79F9202U单片机驱动LCD段码液晶学习笔记
  • 第13章 层次式架构设计理论与实践
  • vs2013使用qt Linguist以及tr不生效问题
  • 用易查分制作研学活动报名,支持在线签名,一键导出报名统计表格!
  • java调用远程接口下载文件
  • 深度学习——卷积神经网络
  • 「前端」从UglifyJSPlugin强制开启css压缩探究webpack插件运行机制
  • 「译」Node.js Streams 基础
  • 【挥舞JS】JS实现继承,封装一个extends方法
  • javascript从右向左截取指定位数字符的3种方法
  • java取消线程实例
  • Java新版本的开发已正式进入轨道,版本号18.3
  • jdbc就是这么简单
  • js中的正则表达式入门
  • Koa2 之文件上传下载
  • passportjs 源码分析
  • PHP 小技巧
  • Redis中的lru算法实现
  • Spring Boot MyBatis配置多种数据库
  • ubuntu 下nginx安装 并支持https协议
  • 再谈express与koa的对比
  • #NOIP 2014# day.1 生活大爆炸版 石头剪刀布
  • (02)Cartographer源码无死角解析-(03) 新数据运行与地图保存、加载地图启动仅定位模式
  • (1)(1.13) SiK无线电高级配置(六)
  • (13)DroneCAN 适配器节点(一)
  • (CVPRW,2024)可学习的提示:遥感领域小样本语义分割
  • (编程语言界的丐帮 C#).NET MD5 HASH 哈希 加密 与JAVA 互通
  • (附源码)springboot掌上博客系统 毕业设计063131
  • (四)搭建容器云管理平台笔记—安装ETCD(不使用证书)
  • (淘宝无限适配)手机端rem布局详解(转载非原创)
  • (原)记一次CentOS7 磁盘空间大小异常的解决过程
  • (原创) cocos2dx使用Curl连接网络(客户端)
  • (转)3D模板阴影原理
  • (转)http协议
  • (轉)JSON.stringify 语法实例讲解
  • ***详解账号泄露:全球约1亿用户已泄露
  • .describe() python_Python-Win32com-Excel
  • .net core 6 集成 elasticsearch 并 使用分词器
  • .Net Core缓存组件(MemoryCache)源码解析
  • .NET I/O 学习笔记:对文件和目录进行解压缩操作
  • .NET国产化改造探索(三)、银河麒麟安装.NET 8环境
  • .Net实现SCrypt Hash加密
  • .NET与java的MVC模式(2):struts2核心工作流程与原理
  • .NET运行机制
  • /dev/sda2 is mounted; will not make a filesystem here!
  • /etc/sudoers (root权限管理)