admin管理員

文章78861
瀏覽3778499

搜索

? 2025年8月 ?
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ascall碼表（Unicode 字符集和 UTF8UTF16UTF32 編碼）

聞冰真 2025-04-15 科技 71 次瀏覽 0個評論

ASCII碼

在較早的計算時代，ASCII 代碼用于表示字符。英語只有 26 個字母和一些其他特殊字符和符號。

下表是 ASCII 碼對照表，包含字符及其相應的十進制和十六進制值。

ASCII 碼對照表

從上表可以推斷出，ASCII 值可以在十進制數系統中表示為 0 到 127。讓我們看看 0 和 127 在 8 位字節中的二進制表示。

0 表示為

0 的二進制表示

127表示為

127 二進制表示

從上面的二進制表示可以推斷，十進制值 0 到 127 可以使用 7 位來表示，而第 8 位是空閑的。

警告從這個地方起，混亂開始了。

人們想出了不同的方法來使用剩余的第八位，從而使其可以表示從 128 到 255 的十進制值。那么沖突就發生了。例如，越南人使用十進制值 182 來表示越南字母 ?，而印度人使用相同的值 182 來表示印地語字母?。因此，如果印度人寫的電子郵件包含字母?并且它被越南人閱讀，那么將會顯示為?。顯然這不是預期的效果。

那么如何解決這個問題呢，接下來就該 Unicode 出場了。

Unicode 和代碼點

Unicode 字符集將世界上的每個字符都映射到一個唯一的數字上。這確保了不同語言的字母之間沒有沖突。這些數字與平臺無關。

這些唯一的數字在 unicode 術語中稱為代碼點。

讓我們看看它們是如何被引用的。

使用代碼點引用拉丁字符?

U+1E4D

U+ 表示 unicode，1E4D是分配給字符 ? 的十六進制值。

英文字母A表示為 U+0041

好了，了解了這些，接下來該是重頭戲了

UTF-8 編碼

現在我們知道什么是 unicode 以及如何將世界上的每個字母分配給一個唯一的代碼點，我們需要一種在計算機內存中表示這些代碼點的方法。這就是字符編碼登場的地方。其中最為人們所熟知的就是 UTF-8 編碼。

UTF-8 編碼是一種大小可變的編碼方案，用于表示內存中的 unicode 代碼點。大小可變編碼意味著代碼點根據其大小使用 1、2、3 或 4 個字節表示。

UTF-8 1 字節編碼

1個字節編碼的標識是第一個比特位為0。

UTF8 1字節編碼表示方式

英文字母A的 unicode 代碼點為 U+0041。它的二進制表示是1000001。

A 以 UTF-8 編碼表示為

01000001

紅色的0位表示使用1字節編碼，其余位代表碼位

UTF-8 2 字節編碼

代碼點為 U+00F1 的拉丁字母?的二進制值11110001。該值大于可以使用 1 字節編碼格式表示的最大值，因此該字母表將使用 UTF-8 2 字節編碼表示。

2 字節編碼的方式是由第一個字節比特位中的高三位的比特序列110和第二個字節比特位中的高二位的比特序列10來標識。

UTF8 2字節編碼方式表示

Unicode 代碼點U+00F1的二進制值是1111 0001。用2字節編碼格式填充這些位，我們得到如下所示的?的UTF-8 2字節編碼表示。

填充是從映射到第二個字節的最低有效位的代碼點的最低有效位開始完成的。

1100001110110001

藍色的二進制數字11110001代表碼位U+00F1的二進制值，紅色的是2字節編碼標識符。黑色零用于填充字節中的空位。

UTF-8 3 字節編碼

具有代碼點U+1E4D的拉丁字符?使用 3 字節編碼表示，因為它大于使用 2 字節編碼可以表示的最大值。

3 字節編碼通過第一個字節中的位序列1110 和第二個和第三個字節中的 10的存在來標識。

UTF8 3字節編碼表示

? 十六進制代碼點 0x1E4D，對應的二進制值為1111001001101。將這些位填充到上述編碼格式中，我們得到了下面所示的 ? 的UTF-8 3 字節編碼表示。

填充是從映射到第三個字節的最低有效位的代碼點的最低有效位開始進行的。

111000011011100110001101

紅色位表示 3 字節編碼，黑色位是填充位，藍色位表示代碼點。

UTF-8 4 字節編碼

表情符號的Unicode代碼點U+1F62D。這大于可以使用 3 字節編碼表示的最大值，因此將使用 4 字節編碼表示。

4 字節編碼通過第一個字節中的11110和隨后的第二個、第三個和第四個字節中的10來標識。

UTF8 4字節編碼表示

U+1F62D的二進制表示是11111011000101101。將這些位填入上述編碼格式，我們就得到了的UTF-8 4字節編碼。代碼點的最低有效位映射到第四個字節的最低有效位，依此類推。

11110000100111111001100010101101

紅色位標識4字節編碼格式，藍色位是實際碼位，黑色位是填充位。

上面我們分別對 UTF-8 的幾種編碼方式進行了詳細的介紹。接下來我們順帶介紹一下 UTF-16 和 UTF-32 編碼方式

UTF-16 編碼

UTF-16 編碼是一種可變字節編碼方案，它使用 2 個字節或 4 個字節來表示 unicode 代碼點。所有現代語言的大多數字符都使用 2 個字節表示。

拉丁字母?的Unicode代碼點為 U+00F1 二進制表示為 11110001 。其 UTF-16 編碼表示為

0000000011110001

上面的表示是在 Big Endian 字節順序模式下（最高有效位在前）。

UTF-32 編碼

UTF-32 編碼是一種固定字節編碼方案，它使用 4 個字節來表示所有代碼點。

英文字母 A 具有 Unicode 代碼點 U+0041。它的二進制表示是 1000001。

它以UTF-32編碼表示，如下所示，

00000000 00000000 00000000 01000001

藍色位是代碼點的二進制表示。上面的表示是在 Big Endian 字節順序模式下。

以上就是關于字符集和字符編碼的所有內容。

轉載請注明來自夕逆IT，本文標題：《ascall碼表（Unicode 字符集和 UTF8UTF16UTF32 編碼）》

本文標簽：ascall碼表

聞冰真 12篇文章站點微博

每一天，每一秒，你所做的決定都會改變你的人生！

發表評論取消回復

評論列表（暫無評論，71人圍觀）參與討論

欧美经典成人在观看线视频_嫩草成人影院_国产在线精品一区二区中文_国产欧美日韩综合二区三区

admin管理員

搜索

ascall碼表（Unicode 字符集和 UTF8UTF16UTF32 編碼）

發表評論取消回復

還沒有評論，來說兩句吧...

文章目錄