Unicode_unicode 代码大于0x10000-程序员宅基地

Unicode

UCS-2用两个字节编码，UCS-4用4个字节编码。Unicode以UCS-2标准编码字符时可以编码2的16次方个字符，中文中常用的汉字也就几千个，这对于常用的字符已经够用。但若要编码所有字符，UCS-4才能满足。

目前的Unicode字符分为17组编排，0x0000 至 0x10FFFF，每组称为平面（Plane），而每平面拥有65536个码位，共1114112个。然而目前只用了少数平面。UCS-4根据最高位为0的最高字节分成27=128个group。每个group再根据次高字节分为256个平面（plane）。每个平面根据第3个字节分为256行（row），每行有256个码位（cell）。group 0的平面0被称作BMP（Basic Multilingual Plane）。如果UCS-4的前两个字节为全零，那么将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。每个平面有216=65536个码位。Unicode计划使用了17个平面，一共有17×65536=1114112个码位。在Unicode 5.0.0版本中，已定义的码位只有238605个，分布在平面0、平面1、平面2、平面14、平面15、平面16。最常用的是0平面，ASCII码在0平面的开始部分。中日韩统一表意文字在 4E00-9FFF之间。详细的编码表可以看 Unicode字符百科。

UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。

UTF-8

UTF-8将一个Unicode代码点拆分为多个代码单元存储，每个代码单元是一个字节。具体的对应关系如下表：

Unicode编码(十六进制)	UTF-8 字节流(二进制)
00000000-0000007F	0xxxxxxx
00000080 - 000007FF	110xxxxx 10xxxxxx
00000800 - 0000FFFF	1110xxxx 10xxxxxx 10xxxxxx
00010000 - 001FFFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
00200000 - 03FFFFFF	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
04000000 - 7FFFFFFF	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

实际上utf-8对于0x10FFFF以后的编码还用不到，因为目前Unicode字符集并没有那么多。对于不同范围的Unicode字符，utf-8的编码长度不同，对于常用的00000000-0000007F。utf-8的一个字节即对应一个字符。相对于utf-16和utf-32更节约空间。

例1：“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间，使用用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是：0110 1100 0100 1001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89

UTF-16

对于代码点小于0x10000（即0平面的Unicode字符），utf-16与Unicode字符集一一对应，两个字节对应一个一个字符。

对于代码点大于0x10000(即0平面以外的Unicode字符)，utf-16将用四个字节对应一个代码点：110110yyyyyyyyyy 110111yyyyyyyyyy。设要编码代码点为U，U1=U-0x10000。将计算得到的U1转换为二进制代替格式中的y便是utf-16对这个代码点的编码。

例2：Unicode编码0x20C30，减去0x10000后，得到0x10C30，写成二进制是：0001 0000 1100 0011 0000。用前10位依次替代模板中的y，用后10位依次替代模板中的x，就得到：1101100001000011 1101110000110000，即0xD843 0xDC30。

为了将一个字符的UTF-16编码与两个字符的UTF-16编码区分开来，Unicode编码的设计者将0xD800-0xDFFF保留下来，并称为代理区（Surrogate）：

.	.	.
D800－DB7F	High Surrogates	高位替代
DB80－DBFF	High Private Use Surrogates	高位专用替代
DC00－DFFF	Low Surrogates	低位替代

Java采用的就是utf-16编码

UTF-32

utf-32采用四个字节编码Unicode的一个代码点，所以足够表示所有Unicode，不需要转换。

字节序

对于编码后的字符如何存储。如0x1234 ,是12 34 还是34 12？

字节序有两种，分别是“大端”（Big Endian, BE）和“小端”（Little Endian, LE）。

根据字节序的不同，UTF-16可被实现为UTF-16LE或UTF-16BE，UTF-32可被实现为UTF-32LE或UTF-32BE。

Unicode编码	UTF-16LE	UTF-16BE	UTF32-LE	UTF32-BE
0x006C49	49 6C	6C 49	49 6C 00 00	00 00 6C 49
0x020C30	43 D8 30 DC	D8 43 DC 30	30 0C 02 00	00 02 0C 30

计算机如何知道这一系列数字采用哪种方式编码？

Unicode标准建议用BOM（Byte Order Mark）来区分字节序，即在传输字节流前，先传输被作为BOM的字符“零宽无中断空格”。这个字符的编码是FEFF，而反过来的FFFE（UTF-16）和FFFE0000（UTF-32）在Unicode中都是未定义的码位，不应该出现在实际传输中。
下表是各种UTF编码的BOM：

UTF编码	Byte Order Mark (BOM)
UTF-8 without BOM	无
UTF-8 with BOM	EF BB BF
UTF-16LE	FF FE
UTF-16BE	FE FF
UTF-32LE	FF FE 00 00
UTF-32BE	00 00 FE FF

如果想直观的查看不同编码的区别，可以通过记事本或其它编辑器创建多个不同编码（utf-8，utf-16 with BOM，utf-32，ASCII等）的文本文档，先存储一个英语字母，查看每个文件的大小。然后增加一个字母，查看文件大小变化。或者通过某些软件直接读取文本文档的底层代码，转换成十六进制就可以看出不同编码文档开头的不同标识信息。

本文链接：https://blog.csdn.net/dcoder3x/article/details/51476501

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

BAT批处理创建文件桌面快捷方式_批处理创建桌面快捷方式-程序员宅基地

文章浏览阅读1.5w次，点赞9次，收藏26次。简介一个创建某个文件到桌面快捷方式的BAT批处理.代码@echooff::设置程序或文件的完整路径（必选）setProgram=D:\Program Files (x86)\格式工厂.4.2.0\FormatFactory.exe::设置快捷方式名称（必选）setLnkName=格式工厂v4.2.0::设置程序的工作路径，一般为程序主目录，此项若留空，脚本将..._批处理创建桌面快捷方式

射频识别技术漫谈（6-10）_芯片 ttf模式-程序员宅基地

文章浏览阅读2k次。射频识别技术漫谈（6-10），概述RFID的通讯协议；射频ID卡的原理与实现，数据的传输与解码；介绍动物标签属性与数据传输；RFID识别号的变化等_芯片 ttf模式

Python 项目实战 —— 手把手教你使用 Django 框架实现支付宝付款_django 对接支付宝接口流程-程序员宅基地

文章浏览阅读1.1k次。今天小编心血来潮，为大家带来一个很有趣的项目，那就是使用 Python web 框架 Django 来实现支付宝支付，废话不多说，一起来看看如何实现吧。_django 对接支付宝接口流程

Zabbix 5.0 LTS在清理历史数据后最新数据不更新_zabbix问题没有更新-程序员宅基地

文章浏览阅读842次。Zabbix 5.0 LTS，跑了一年多了一直很稳定，前两天空间显示快满了，于是手贱清理了一下history_uint表（使用mysql truncate），结果折腾了一周。大概故障如下：然后zabbix论坛、各种群问了好久都没解决，最后自己一番折腾似乎搞定了。初步怀疑，应该是由于历史数据被清空后，zabbix需要去处理数据，但是数据量太大，跑不过来，所以来不及更新了（？）..._zabbix问题没有更新

python学习历程_基础知识（2day）-程序员宅基地

文章浏览阅读296次。一、数据结构之字典 key-value

mybatis-plus字段策略注解strategy_mybatisplus strategy-程序员宅基地

文章浏览阅读9.7k次，点赞3次，收藏13次。最近项目中遇到一个问题，是关于mybatis-plus的字段注解策略，记录一下。1问题调用了A组件（基础组件），来更新自身组件的数据，发现自己组件有个字段总是被清空。2原因分析调用的A组件的字段，属于基础字段，自己业务组件，对这个基础字段做了扩展，增加了业务字段。但是在自己的组件中的实体注解上，有一个注解使用错误。mybatis-plus封装的updateById方法，如果..._mybatisplus strategy