当前位置：首页 > news >正文

ByteArrayInputStream和DataInputStream的源码分析和使用方法详细分析前言）UTF-8 编码规则

news 2026/6/30 5:43:03

UTF-8（Unicode Transformation Format-8-bit）是一种针对 Unicode 的可变长度字符编码，通过 1 至 4 个字节表示一个字符，完美兼容 ASCII 编码，同时支持全球所有语言的字符（包括中文、日文、韩文、阿拉伯语等）。其核心设计思想是通过首字节的标识符确定字符的字节长度，后续字节以固定格式标记，确保编码的唯一性和可解析性。
UTF-8 的编码规则基于 Unicode 码点的范围，通过首字节的前几位（前缀码）标识字符的字节长度，后续字节以 10 开头作为延续标记。具体规则如下：

Unicode码点范围	对应UTF-8编码时占用的字节数	用UTF-8编码时首字节的格式	用UTF-8编码时后续字节格式	示例字符	UTF-8 编码
U+0000 ~ U+007F	1	0xxxxxxx	无	A	0x41
U+0080 ~ U+07FF	2	110xxxxx	10xxxxxx（10xxxxxx * 1）	é	0xC3 0xA9
U+0800 ~ U+FFFF	3	1110xxxx	10xxxxxx 10xxxxxx （10xxxxxx * 2）	中	0xE4 0xB8 0xAD
U+10000 ~ U+10FFFF	4	11110xxx	10xxxxxx 10xxxxxx 10xxxxxx（10xxxxxx * 3）	𠮷	0xF0 0xA0 0xAE 0xB7

一、编码步骤详解

1.1、中文编码解码步骤

1.1.1、汉字“中”的编码步骤

以汉字“中”（Unicode 码点 U+4E2D）为例，其 UTF-8 编码过程如下：
①、确定编码模板，由于 U+4E2D 属于 U+0800 ~ U+FFFF 范围，需使用 3 字节模板：

1110xxxx 10xxxxxx 10xxxxxx

②、码点转二进制，U+4E2D 的二进制表示为

0100 1110 0010 1101（高位补零至 16 位）。

③、填充到步骤①中的编码模板中
a、第一个字节：取0100填充1110xxxx ，填充后的结果为 1110 0100（0xE4）。
b、第二个字节：取111000填充10xxxxxx ，填充后的结果为 1011 1000（0xB8）。
c、第三个字节：取 101101填充10xxxxxx ，填充后的结果为 1010 1101（0xAD）。
④、组合步骤③中的所有的填充结果，最终，汉子“中” 的 UTF-8 编码为 0xE4 0xB8 0xAD。

1.1.2、汉字"中"的解码步骤

汉字“中”解码过程和编码过程相反，先根据首字节的前缀码确定字节数，再提取有效位组合成 Unicode 码点，具体步骤如下：
①、首字节 0xE4 以 1110 开头，说明是 3 字节编码模板。
②、分别从3个字节中提取各自的有效位，总共提取3次
a、从第一个字节 1110 0100（0xE4）中取 0100。
b、从第二个字节1011 1000（0xB8）中取 111000。
c、从第三个字节1010 1101（0xAD）中取 101101。
③、依次组合步骤②中a、b、c提取的码点，拼接成有效位：

0100 1110 0010 1101 → U+4E2D（在Unicode 码点中表示"中"）。

1.2、英文编码解码步骤

1.2.1、英文"A"的编码步骤

以英文字母"A"（Unicode 码点 U+0041）为例，其 UTF-8 编码过程如下：
①、确定编码模板，由于 U+0041 属于 U+0000 ~ U+007F 范围，需使用 1 字节模板：

0xxxxxxx

②、码点转二进制，U+0041 的二进制表示为

0100 0001（高位补零至 8 位）。

③、填充到步骤①中的编码模板中
a、第一个字节：取100 0001填充0xxxxxxx，填充后的结果为 0100 0001（0x41）。
④、组合步骤③中的所有的填充结果，最终，英文字母"A" 的 UTF-8 编码为0x41。

1.2.2、英文"A"的解码步骤

英文"A"解码过程和编码过程相反，先根据首字节的前缀码确定字节数，再提取有效位组合成 Unicode 码点，具体步骤如下：
①、首字节 0x41 以 0 开头，说明是 1 字节编码模板。
②、只从唯一的1个字节中提取有效位，只提取1次
a、从第一个字节 0100 0001（0x41）中取 100 0001。
③、组合步骤②中a提取的码点，拼接成有效位：

0100 0001 → U+0041（高位补零至 8 位，在Unicode 码点中表示"A"）。

1.3、中文中的特殊字符é编码解码步骤

1.3.1、中文中的特殊字符"é"的编码步骤

以中文中的特殊字符"é"（Unicode 码点 U+00E9）为例，其 UTF-8 编码过程如下：
①、确定编码模板，由于 U+00E9属于 U+0080 ~ U+07FF 范围，需使用 2字节模板：

110xxxxx 10xxxxxx

②、码点转二进制，U+00E9 的二进制表示为

0000 0000 1110 1001（高位补零至 16 位）。

③、填充到步骤①中的编码模板中
a、第一个字节：取000 11填充110xxxxx，填充后的结果为 1100 0011（0xC3）；
b、第二个字节：取10 1001填充10xxxxxx，填充后的结果为 1010 1001（0xA9）；
④、组合步骤③中的所有的填充结果，最终，中文中的特殊字符"é"的 UTF-8 编码为0xC3 0xA9。