当前位置：首页 > news >正文

计算机字符编码的发展

news 来源：原创 2024/7/2 14:13:30

背景

发展

第一阶段：ASCII编码

第二阶段：扩展ASCII编码

第三阶段：各国编码

第四阶段：Unicode编码

第五阶段：UTF系列编码方式

背景

在计算机诞生初期，所有的数据都是基于二进制数（0和1）来表示的。如果人类直接操作二进制数据会出现很多问题（如可读性差、易出错等），为了解决这个问题（让计算机能够理解和处理人类语言），方便人类使用计算机，一种相关技术就应运而生，这就是字符编码（一套将人类语言转换为二进制数据的规则或系统）。

发展

第一阶段：ASCII编码

遇到的问题：在计算机发展的早期，当时计算机开始普及并需要进行字符的传输和存储。然而，由于各种计算机系统和程序使用的字符表示方式不尽相同，导致文本数据在交换和处理时容易出现混乱和错误。

解决方案：为了解决不同计算机系统之间字符编码不一致的问题，ASCII（American Standard Code for Information Interchange，美国信息交换标准代码）就此诞生。

PS：字符编码中最小的存储单位是字节，而标准ASCII只使用了7位（最高位为0）。标准ASCII只能表示128个不同的字符（主要用于表示英文字符、数字、标点符号和控制字符等）。

第二阶段：扩展ASCII编码

遇到的问题：由于计算机最初是由美国人发明的，因此ASCII编码主要基于英文字符集进行设计。如果计算机只在美国使用的话，也没有什么太大的问题，但是后来其它国家也开始使用计算机的时候，发现它们国家里面的字符根本不在这128个字符里面。

解决方案：其它国家在原有的ASCII码基础上进行扩展，就是将原来二进制数最高位的0变为1，也就是从128扩展到255（等于新增的128个字符）对应ASCII码叫作扩展ASCII码。通过对ASCII码的扩展，似乎解决了一些欧洲国家的字符编码问题。

第三阶段：各国编码

遇到的问题：随着计算机应用的全球化和多语言环境的出现，各国因语言不同，标准的ASCII编码已不满足。而扩展ASCII码并没有一个统一的国际标准，因此不同的系统、平台或编程语言可能采用不同的扩展ASCII码表。这可能会导致在不同环境之间交换文本数据时出现字符编码不兼容的问题。

解决方案：各国开始发展自己的字符编码标准，以满足本国语言和字符的表示需求。这些编码标准通常与ASCII码和扩展ASCII码有所不同，并具有更大的字符集和更复杂的编码规则。

PS：我国与之对应的编码是GB2312字符编码和对GB2312进行扩充的GBK字符编码等主要用于表示中文字符。其中GBK编码于1995年12月正式发布。

第四阶段：Unicode编码

遇到的问题：随着全球化的进一步推进，各国之间的信息交流愈加的频繁，而各国编码并没有一个统一的国际标准，各种编码标准之间产生冲突和乱码问题。

解决方案：需要一种能够统一表示全球各种字符的编码方案，以解决各国编码带来的兼容性问题。这个时候提出了Unicode（统一码、万国码、单一码）这样的一个标准。Unicode标准定义了世界上几乎所有书写系统中的字符的码点（code points），即给每个字符分配了一个唯一的数字标识符（通常是一个16位或32位的整数）。

PS：Unicode只定义了字符的码点，相等于是一个标准的字符集。具体的字符编码取决与使用的Unicode的编码方式。

Unicode最初编码方式的演变：

因Unicode编码本身并不直接指定这些码点如何存储在计算机中，最初的它使用16位（即固定的两个字节）的编码空间，采用了类似UCS-2固定宽度的编码方式。但由于字符数量的增加，最多只能表示65,536个（2^16）不同的字符，需要表示的字符数量远远超出了16位所能表示的范围。（主要概况就是：设计的局限性显现）

为了解决16位编码空间的局限性，Unicode标准引入了两种主要的解决方案：

类似于UCS-4编码方式：即使用更多的位数（通常是32位或4个字节，也就是将近43亿[2^32]）来表示每个字符，从而扩大编码空间。这种方式基本上就能涵盖世界上所有的字符了。但是这样的编码规则并没有被世界各国很好的接受，因为这种方式会增加存储和传输的成本（每个字符固定了4个字节）。
支持额外的机制：在保留16位编码空间的同时，引入额外的机制来表示超出16位编码范围的字符。这主要通过使用“代理对”（surrogate pairs）来实现，即使用两个16位的编码单元来表示一个超出基本多语言平面（BMP）的字符。这种方式能够在不大幅增加存储和传输成本的前提下，支持更多的字符。但这种方式会使得编码和解码过程变得复杂。

补充：在Unicode字符集的发展历史中，有两个主要的组织或项目在推动单一字符集的创建：国际标准化组织（ISO）于1984年创建的通用字符集（Universal Character Set, UCS），这后来由ISO 10646（或称ISO/IEC 10646）标准所定义；另一个是由一些软件制造商（如Xerox、Apple等）于1988年成立的Unicode团队。这两个项目在初期是独立的，但随着时间的推移，他们意识到世界不需要两个不兼容的字符集，因此开始合并双方的工作成果，为创建一个单一编码表而协同工作（从Unicode 2.0开始，Unicode的编码与ISO/IEC 10646标准（UCS）实现了一致，两者共享相同的字符编码和字符集）。随着技术的发展和标准化工作的推进，现编码中UCS编码已经合并到Unicode编码中了。

这里再补充一个点：UCS字符集包含UCS-2编码方式和UCS-4编码方式，UCS的开发进度快于Unicode，1990年就公布了第一套编码方法UCS-2。后续Unicode在1996年7月公布，明确宣布是UCS-2的超集。

第五阶段：UTF系列编码方式

介绍：因Unicode编码本身并不直接指定这些码点如何存储在计算机中，它定义了多种编码形式，其中UTF（Unicode Transformation Format）系列是一种用于编码Unicode字符集的字符编码方式。

遇到的问题：虽然Unicode字符集包含了全球各种字符，但最初编码方式存在的问题，如编码长度固定和不同编码方式之间的冲突，限制了存储和传输效率。所以说Unicode标准推出了很长一段时间，并没有被广泛接受，直到后面互联网时代的来临，各国之间的信息交流愈加的频繁，这时候不得不对编码进行重新思考。

解决方案：为了解决这些问题，UTF系列编码方式应运而生，其中最具代表性的是UTF-8。

UTF系列，全称为Unicode Transformation Format，是用于表示Unicode字符集的一种字符编码方式。UTF系列包括UTF-8、UTF-16和UTF-32三种主要编码类型，每种类型都有其特定的应用场景和优势。

以下是关于UTF系列的详细说明：

UTF-8：
- 特点：一种可变长度的Unicode编码方式，优点之一是节省空间，它使用1到4个字节来编码Unicode字符。UTF-8编码在表示ASCII字符时与ASCII编码兼容，即ASCII字符在UTF-8中的编码与它们在ASCII中的编码相同，都是单个字节。这使得UTF-8在处理以ASCII字符为主的文本时具有更高的效率。
- 使用场景：广泛应用于互联网和计算机系统中，如网页编码、文件存储等。
UTF-16：
- 特点：UTF-16可以看作是UCS-2的父集（源于UCS-2）。它是固定或可变长度的，取决于字符的Unicode代码点。在没有辅助平面字符之前，UTF-16与UCS-2是相同的，都使用两个字节表示字符。但是，当引入辅助平面字符后，UTF-16扩展为能够表示更多字符的编码方式。（ UTF-16 通常使用 2 个字节来编码字符，但当遇到辅助平面内的字符时，它需要使用 4 个字节（两个 16 位单元）来编码。这种设计使得 UTF-16 在处理常用字符时非常高效（只需要 2 个字节），同时又能支持整个 Unicode 字符集。然而，这也使得 UTF-16 的编码长度不是完全固定的，需要根据具体的字符来确定）
- 使用场景：操作系统、编程语言、数据库等需要表示Unicode字符的场景，特别是在Windows操作系统中，UTF-16是默认的字符编码方式。
UTF-32：
- 特点：始终使用固定长度4个字节表示一个Unicode字符。这种编码方式对于处理Unicode字符非常直接，但可能会浪费存储空间。（UTF-32与UCS-4在编码方式上非常相似，都是使用四个字节的固定长度来表示每个字符）
- 使用场景：需要严格区分字符和编码的场景，如文本编辑器、网页开发等。

至此，以上就是字符编码的大致发展历程。

计算机字符编码的发展

背景

发展

第一阶段：ASCII编码

第二阶段：扩展ASCII编码

第三阶段：各国编码

第四阶段：Unicode编码

第五阶段：UTF系列编码方式

相关扩展

相关文章：