Unicode and UTF-8

admin · 发表于 2015-11-23 12:24:15

Unicode预订的编码空间大小为0x0-0x10FFFF，最多可以容纳1114112（100多万）个字符，实际上并不能使用这么多的空间，于是编码方式出现了两种：ucs-2(BMP)和ucs-4 编码方式，其中,bmp是Basic Multilingual Plane的简写。

一个字符的Unicode编码(码点)是唯一确定的，但由于不同系统平台实现方式的不同（如字节序的不同)，或基于传输或节省存储空间等各种因素考虑，Unicode的实现方式各不相同，Unicode的实现方式称为Unicode转换格式（Unicode Translation Format，简称为UTF）如UTF-16。

UTF-16采用双字节对UCS-2字符进行编码，由于UCS-2本身也是双字节编码，故一般UTF-16编码和UCS-2编码可等同对待，但由于不同平台对字节序的理解不同，UTF-16又分为UTF-16 BE(Big-Endian，简写为UTF-16 BE)和UTF-16 LE(Little-Endian，简写为UTF-16 LE)两种编码方式。

UTF-16编码的优点：编码效率高，寻址快。
由于所有字符都采用双字节编码，可以快速对字符进行定位及计算，如一个文本文件，可以通过获得其文件大小/2即可计算得知包含的字符数。Java默认使用UTF-16 BE编码。

那么为什么会出现utf-8呢：
1）、和ASCII码不兼容，而且不太好移植(Not Portable)
例如：char *s=“Good ,北京”;该C语言代码采用UTF-16编码后，字节序列中间有许多’\0’，’\0’ 会被识别为字符串的终止，strlen()函数不起用了。
2）、存储空间较大，造成存储及带宽的极大浪费，极端情况下，英文存储空间会Double！
为了解决这些现实生活中遇到的问题，UTF-8编码应运而生！

言归正传,对于UTF-8：
UTF-8是针对Unicode(UCS-2或UCS-4)的可变长度编码方式，是一种前缀码，它可用来编码Unicode中的任何一个字符。UTF-8编码和ASCII码全兼容，自应用以来逐渐成为电子邮件、网页及其他存储或传送文字应用中，最优先采用的Unicode编码方式。

转自：火丁笔记

Unicode and UTF-8

浏览过的版块