Unicode是一种国际编码标准,可用于不同的语言和脚本。通过为每个字符提供唯一编号来工作,从而创建一致的文本编码,表示形式和处理方式。
基本上,Unicode就像一个通用字母,涵盖了世界上大多数不同的语言,将字符转换为数字。通过使用字符编码来实现此目的,即为每个可以使用的字符分配一个数字。
字符编码
例如,我可以说字母A变成数字13,a = 14、1 = 33,#= 123,依此类推。如果整个计算机行业都使用相同的字符编码方案,则每台计算机都可以显示相同的字符。
ASCII(美国信息交换标准代码)成为第一个广泛使用的编码方案,但是,它仅限于128个字符定义。这对于大多数常见的英文字符,数字和标点符号来说是可以的,但对于世界其他地方则有所限制。
自然,世界其他地方也希望它们的字符使用相同的编码方案。但是,根据您所处的位置,有一段时间,对于相同的ASCII代码,可能会显示不同的字符。
最后,世界其他地区开始创建自己的编码方案,事情开始变得有些混乱。不仅是不同长度的编码方案,程序还需要弄清楚它们应该使用哪种编码方案。
很明显,需要一种新的字符编码方案,那就是创建Unicode标准时。Unicode的目标是统一所有不同的编码方案,以便可以最大程度地限制计算机之间的混乱。
如今,Unicode标准定义了超过128,000个字符的值,可以在Unicode Consortium上看到,它具有几种字符编码形式:
UTF-8:仅使用一个字节(8位)来编码英文字符,它可以使用字节序列来编码其他字符,UTF-8广泛用于电子邮件系统和Internet。
UTF-16:使用两个字节(16位)编码最常用的字符,如果需要,附加字符可以用一对16位数字表示。
UTF-32:使用四个字节(32位)对字符进行编码,很明显,随着Unicode标准的发展,一个16位的数字太小了,无法代表所有字符,UTF-32能够将每个Unicode字符表示为一个数字。
注意: UTF表示Unicode转换单位。