當前位置:首頁 » 服務存儲 » gbk存儲漢字數量
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

gbk存儲漢字數量

發布時間: 2022-11-16 21:28:02

1. GBK編碼的一個漢字要佔多少位元組呀

GBK編碼,一個漢字占兩個位元組。
GBK全稱《漢字內碼擴展規范》(GBK即「國標」、「擴展」漢語拼音的第一個字母,英文名稱:Chinese Internal Code Specification) ,中華人民共和國全國信息技術標准化技術委員會1995年12月1日制訂,國家技術監督局標准化司、電子工業部科技與質量監督司1995年12月15日聯合以技監標函1995 229號文件的形式,將它確定為技術規范指導性文件。這一版的GBK規范為1.0版。
GBK 亦採用雙位元組表示,總體編碼范圍為 8140-FEFE,首位元組在 81-FE 之間,尾位元組在 40-FE 之間,剔除 xx7F 一條線。總計 23940 個碼位,共收入 21886 個漢字和圖形符號,其中漢字(包括部首和構件)21003 個,圖形符號 883 個。
全部編碼分為三大部分:
1. 漢字區。包括:
a. GB 2312 漢字區。即 GBK/2: B0A1-F7FE。收錄 GB 2312 漢字 6763 個,按原順序排列。
b. GB 13000.1 擴充漢字區。包括:
(1) GBK/3: 8140-A0FE。收錄 GB 13000.1 中的 CJK 漢字 6080 個。
(2) GBK/4: AA40-FEA0。收錄 CJK 漢字和增補的漢字 8160 個。CJK 漢字在前,按 UCS 代碼大小排列;增補的漢字(包括部首和構件)在後,按《康熙字典》的頁碼/字位排列。
2. 圖形符號區。包括:
a. GB 2312 非漢字元號區。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符號外,還有 10 個小寫羅馬數字和 GB 12345 增補的符號。計符號 717 個。
b. GB 13000.1 擴充非漢字區。即 GBK/5: A840-A9A0。BIG-5 非漢字元號、結構符和「○」排列在此區。計符號 166 個。
3. 用戶自定義區:分為(1)(2)(3)三個小區。
(1) AAA1-AFFE,碼位 564 個。
(2) F8A1-FEFE,碼位 658 個。
(3) A140-A7A0,碼位 672 個。
第(3)區盡管對用戶開放,但限制使用,因為不排除未來在此區域增補新字元的可能性。

2. UTF-8和GBK分別收錄了多少個漢字

GBK: 漢字國標擴展碼,基本上採用了原來GB2312-80所有的漢字及碼位,並涵蓋了原Unicode中所有的漢字20902,總共收錄了883個符號, 21003個漢字及提供了1894個造字碼位。 Microsoft簡體版中文Windows 95就是以GBK為內碼,又由於GBK同時也涵蓋了Unicode所有CJK漢字,所以也可以和Unicode做一一對應。

3. 一個中文字元用utf-8編碼佔用幾個位元組,gbk,gb2312,還有iso8859-1呢

常用中文字元用utf-8編碼佔用3個位元組(大約2萬多字),但超大字元集中的更大多數漢字要佔4個位元組(在unicode編碼體系中,U+20000開始有5萬多漢字)。
GBK、GB2312收編的漢字佔2個位元組,嚴格地用iso8859-1無法表示漢字,只能轉為問號。

4. 關於GBK編碼GBK編碼總共有多少個字元,有

1個字元=1個位元組
1個漢子=2個位元組(gbk編碼下)
1個漢子=3個位元組(utf-8編碼下)
註:1個位元組=8位 即 1B = 8bit

5. GB2312,GBK,GB18030,UNICODE中哪一種編碼收了最多漢字

GB2312收錄了6763個漢字
GBK收錄了21003個漢字
GB18030-2000收錄了27533個漢字
GB18030-2005收錄了70244個漢字
Unicode 5.0收錄了70217個漢字

目前看來GB18030-2005收錄了最多漢字。
GB18030和Unicode都有足夠的碼位容納更多的漢字。

Windows內核使用Unicode。簡體中文Windows的默認內碼是GBK。
中文Linux系統使用utf-8比較常見。utf-8是Unicode的一種形式。
目前最多人用的漢字編碼應該是GBK。

如果你想進一步了解Unicode、GB2312、GBK和GB18030中的漢字,可以參考:
http://blog.csdn.net/fmddlmyy/archive/2007/11/05/1868313.aspx

如果你想進一步了解GB18030,可以參考:
http://blog.csdn.net/fmddlmyy/archive/2008/04/13/2288312.aspx

如果你想進一步了解文本編碼和Unicode,可以參考:
http://blog.csdn.net/fmddlmyy/archive/2007/02/14/1510189.aspx
http://blog.csdn.net/fmddlmyy/archive/2007/02/14/1510193.aspx

6. 一個漢字幾個字元

一個漢字等於2個字元。

在 ASCII 編碼中,一個英文字母字元存儲需要1個位元組。在 GB 2312 編碼或 GBK 編碼中,一個漢字字元存儲需要2個位元組。在UTF-8編碼中,一個英文字母字元存儲需要1個位元組,一個漢字字元儲存需要3到4個位元組。

在UTF-16編碼中,一個英文字母字元或一個漢字字元存儲都需要2個位元組(Unicode擴展區的一些漢字存儲需要4個位元組)。在UTF-32編碼中,世界上任何字元的存儲都需要4個位元組。

相關簡介

字元是電子計算機或無線電通信中字母、數字、符號的統稱,其是數據結構中最小的數據存取單位,通常由8個二進制位(一個位元組)來表示一個字元。

字元是計算機中經常用到的二進制編碼形式,也是計算機中最常用到的信息形式。

字元包括字母、數字、運算符號、標點符號和其他符號,以及一些功能性符號。字元在計算機內存放,應規定相應的代表字元的二進制代碼。

代碼的選用要與有關外圍設備的規格取得一致。這些外圍設備包括鍵盤控制台的輸入輸出、列印機的輸出等等。

7. 關於計算機漢字的編碼,計算機中的漢字型檔中大概有多少個

電腦漢字的編碼,電腦漢字型檔中的漢字數量由字元集決定的,GB2312的字元集約6000多,GBK約1-2萬,GB18030約6萬。
電腦內部漢字信息的存儲運算的代碼有四種:輸入碼、國標碼、內碼和字型碼。
輸入碼:包括拼音編碼和字型編碼。微軟拼音ABC就是拼音編碼,五筆字型輸入法就是字型編碼。
國標碼:又稱為漢字交換碼,在計算機之間交換信息用。用兩個位元組來表示,每個位元組的最高位均為0,因此可以表示的漢字數為2的14次冪,就是16384個。將漢字區位碼的高位位元組、低位位元組各加十進制數32(即十六進制數的20),便得到國標碼。例如「中」字的國標碼為8680(十進制)或7468(十六進制)。
內碼:漢字內碼是在設備和信息處理系統內部存儲、處理、傳輸漢字用的代碼。無論使用何種輸入碼,進入計算機後就立即被轉換為機內碼。規則是將國標碼的高位位元組、低位位元組各自加上128(十進制)或80(十六進制)。例如,「中」字的內碼以十六進製表示時應為F4E8。這樣做的目的是使漢字內碼區別於西文的ASCII,因為每個西文字母的ASCII的高位均為0,而漢字內碼的每個位元組的高位均為1。
字型碼:表示漢字字形的字模數據,因此也稱為字模碼,是漢字的輸出形式。通常用點陣、矢量函數等表示。用點陣表示時,字形碼指的就是這個漢字字形點陣的代碼。根據輸出漢字的要求不同,點陣的多少也不同。簡易型漢字為16′16點陣、提高型漢字為24′24點陣、48′48點陣等。如果是24′24點陣,每行24個點就是24個二進制位,存儲一行代碼需要3個位元組。那麼,24行共佔用3′24=72個位元組。計算公式:每行點數/8′行數。依此,對於48′48的點陣,一個漢字字形需要佔用的存儲空間為48/8′48=6′48=288個位元組。

8. 一個漢字的機內碼需用幾個位元組存儲

一個漢字的機內碼需用2個位元組存儲。

我國國家標准局於1981年5月頒布了《信息交換用漢字編碼字元集——基本集》,代號為GB2312-80,共對6763個漢字和682個圖形字元進行了編碼,其編碼原則為:漢字用兩個位元組表示。

原則上,兩個位元組可以表示 256×256=65536 種不同的符號,作為漢字編碼表示的基礎是可行的。但考慮到漢字編碼與其它國際通用編碼,如ASCII 西文字元編碼的關系,我國國家標准局採用了加以修正的兩位元組漢字編碼方案,只用了兩個位元組的低7位。

這個方案可以容納 128×128=16384 種不同的漢字,但為了與標准ASCII碼兼容,每個位元組中都不能再用32個控制功能碼和碼值為32的空格以及127的操作碼。所以每個位元組只能有94個編碼。這樣,雙七位實際能夠表示的字數是:94×94=8836個。

(8)gbk存儲漢字數量擴展閱讀:

機內碼的相關規定:

國家標准局頒布的《信息交換用漢字編碼字元集基本集》(代號為GB2312-80)規定的漢字交換碼作為國家標准漢字編碼。

GB2312-80中共有7445個字元符號:漢字元號6763個一級漢字3755個(按漢語拼音字母順序排列)二級漢字3008個(按部首筆劃順序排列)非漢字元號682個GB2312-80規定,鍵盤是當前微機的主要輸入設備,輸入碼就是使用英文鍵盤輸入漢字時的編碼。

目前,我國已推出的輸入碼有數百種,但用戶使用較多的約為十幾種,按輸入碼編碼的主要依據,大體可分為順序碼、音碼、形碼、音形碼四類,如「保」字,用全拼,輸入碼為「BAO」,用區位碼,輸入碼為「1703」,用五筆字型則為「WKS」。

參考資料來源:網路-機內碼

9. GBK是GB2312-80的擴展名,它包含了大約多少萬個漢字

GBK總計23940 個碼位,共收入21886個漢字和圖形符號,其中漢字(包括部首和構件)21003 個,圖形符號883 個.

10. 1kb大概有多少漢字

與漢字編碼有關。
GB2312編碼,以及GBK編碼的漢字,每個漢字佔用2Byte的存儲空間,1kB=1024Byte,因此可以存儲512個漢字。