清泛IT社区

标题: Unicode and UTF-8 [打印本页]

作者: 清泛网    时间: 2015-11-23 12:24
标题: Unicode and UTF-8
Unicode预订的编码空间大小为0x0-0x10FFFF,最多可以容纳1114112(100多万)个字符,实际上并不能使用这么多的空间,于是编码方式出现了两种:ucs-2(BMP)和ucs-4 编码方式,其中,bmp是Basic Multilingual Plane的简写。

一个字符的Unicode编码(码点)是唯一确定的,但由于不同系统平台实现方式的不同(如字节序的不同),或基于传输或节省存储空间等各种因素考虑,Unicode的实现方式各不相同,Unicode的实现方式称为Unicode转换格式(Unicode Translation Format,简称为UTF)如UTF-16。
UTF-16采用双字节对UCS-2字符进行编码,由于UCS-2本身也是双字节编码,故一般UTF-16编码和UCS-2编码可等同对待,但由于不同平台对字节序的理解不同,UTF-16又分为UTF-16 BE(Big-Endian, 简写为UTF-16 BE)和UTF-16 LE(Little-Endian,简写为UTF-16 LE)两种编码方式。

UTF-16编码的优点:编码效率高,寻址快。
由于所有字符都采用双字节编码,可以快速对字符进行定位及计算,如一个文本文件,可以通过获得其文件大小/2即可计算得知包含的字符数。Java默认使用UTF-16 BE编码。
那么为什么会出现utf-8呢:
1)、和ASCII码不兼容,而且不太好移植(Not Portable)
例如:char *s=“Good ,北京”;该C语言代码采用UTF-16编码后,字节序列中间有许多’\0’,’\0’ 会被识别为字符串的终止,strlen()函数不起用了。
2)、存储空间较大,造成存储及带宽的极大浪费,极端情况下,英文存储空间会Double!
为了解决这些现实生活中遇到的问题,UTF-8编码应运而生!

言归正传,对于UTF-8:
UTF-8是针对Unicode(UCS-2或UCS-4)的可变长度编码方式,是一种前缀码,它可用来编码Unicode中的任何一个字符。UTF-8编码和ASCII码全兼容,自应用以来逐渐成为电子邮件、网页及其他存储或传送文字应用中,最优先采用的Unicode编码方式。

转自:火丁笔记




欢迎光临 清泛IT社区 (https://bbs.tsingfun.com/) Powered by Discuz! X3.3