1、位(bit) 來自英文bit,音譯為“比特”,表示二進制位。位是計算機內部數據儲存的最小單位,11010100是一個8位二進制數。一個二進制位只可以表示0和1兩種狀態(21);兩個二進制位可以表示00、01、10、11四種(22)狀態;三位二進制數可表示八種狀態(23)……。
2、字節(byte) 字節來自英文Byte,音譯為“拜特”,習慣上用大寫的“B”表示。 字節是計算機中數據處理的基本單位。計算機中以字節為單位存儲和解釋信息,規定一個字節由八個二進制位構成,即1個字節等于8個比特(1Byte=8bit)。八位二進制數最小為00000000,最大為11111111;通常1個字節可以存入一個ASCII碼,2個字節可以存放一個漢字國標碼。
3、字 計算機進行數據處理時,一次存取、加工和傳送的數據長度稱為字(word)。一個字通常由一個或多個(一般是字節的整數位)字節構成。例如286微機的字由2個字節組成,它的字長為16;486微機的字由4個字節組成,它的字長為32位機。 計算機的字長決定了其CPU一次操作處理實際位數的多少,由此可見計算機的字長越大,其性能越優越。
一個ascll碼就是一個字節, 因為ascll碼的二進制范圍是00000000到11111111, 十進制范圍是0到255,
unicode指的是UCS-2的編碼方式, 是以兩個字節的長度
utf-8是一種變長的編碼方式,它可以使用1~4個字節表示一個符號,根據不同的符號而變化字節長度
utf-16是,好處在于大部分字符都以固定長度的字節 (2字節) 儲存,但UTF-16卻無法兼容于ASCLL編碼
UTF-32(或 UCS-4)是以4個字節的長度固定存儲的;
每一個字節文件都是以約定的編碼進行存儲的:
比如utf-8是使用作為:EF BB BF 開頭的, utf-8格式的文件16進制如下:
ANSI是window下的默認格式,英文會以ASCLL碼存儲,而中文會以GBK碼就行存儲;
如果是unicode的話, 會以FE FF和 FF FE這兩種大頭小頭的方式約定存儲, unicode格式的16進制文件如下:
字符編碼筆記:ASCII,Unicode和UTF-8 http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
Unicode與JavaScript詳解 http://www.ruanyifeng.com/blog/2014/12/unicode.html
文章列表