关于UTF-8的变长

UTF-8数据所占字节为什么会变呢？
汉字一般就是3字节，会不会变成4字节呢？什么情况下会变呢？

Unicode 对对字符进行编码，即给予每个字符一个独一无二的编码用于表示。

UTF-8则是存储编码，将具体的Unicode按照一定规则保存。UTF-8 的编码规则请参照这个地址。

既然用于存储，也会涉及到传输，UTF-8使用变长的方式有节省空间、自动纠错性能好、利于传输、扩展性强等有点，劣势是不利于程序内部处理。

链接所指的网页里有对编码范围对应的字节长度做了一个整理，其中有提到当 Unicode 编码范围为0800 ~ FFFF 时，UTF-8 使用三个字节编码，而根据最新的CJK字符表，中文所在的范围是4E00 ~ 9FCF，也就是在这个范围内，所以一般（CJK 还有扩展字符集，其中 CJK Extension B 是从 U2000 开始的）不会使用 4 个字节编码。

【热门文章】