标签: Unicode

Unicode编码

计算机发展早期，编码只有ASCII编码，但ASCII编码只能够用来表示拉丁字母、数字以及一些特殊符号。
而语言不止英语一种，例如中文一个字节是不够表示的，最少需要两个字节，并且需要兼容ASCII编码，不能与之发生冲突。为了解决传统字符编码方案的局限性，所以Unicode编码应运而生。

Unicode通常用两个字节表示一个字符，原有的英文编码从单字节变成双字节，只需要把高字节全部填为0就可以。

几乎所有电脑系统都支持基本拉丁字母，并各自支持不同的其他编码方式。
Unicode为了和它们相互兼容，其首256字符保留给ISO 8859-1所定义的字符，使既有的西欧语系文字的转换不需特别考量；
并且把大量相同的字符重复编到不同的字符码中去，使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换，而不会丢失任何信息。

沐沐2024/12/6大约 8 分钟