當前位置:首頁 » 服務存儲 » 中文字元的存儲大小
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

中文字元的存儲大小

發布時間: 2022-12-20 04:44:17

① 一個漢字到底是多少個字元,高手請進

一個漢字佔用2個字元。

在 ASCII 編碼中,一個英文字母的字元存儲需來要1個位元組。在 GB 2312 編碼或 GBK 編碼中,一個漢字字元自存儲需要2個位元組。在UTF-8編碼中,一個英文字母字元存儲需要1個位元組,一個漢字字元儲存需要3到4個位元組。

在UTF-16編碼中,一個英文字母字元或一個漢字字元存儲都需要2個位元組百(Unicode擴展區的一些漢字存儲需要4個位元組)。在UTF-32編碼中,世界上任何字元的存儲都需要4個位元組。

(1)中文字元的存儲大小擴展閱讀

漢字的文字編碼標准主要有 ASCII、GB2312、GBK、Unicode等。ASCII 編碼是最簡單的西文編碼方案。GB2312、GBK、GB18030 是漢字字元編碼方案的國家標准。ISO/IEC 10646 和 Unicode 都是全球字元編碼的國際標准。

為了解決中國、日本和韓國的象形文字元和ASCII的某種兼容性,出現了雙位元組字元集,DBCS從 第256 代碼開始,就像ASCII一樣,最初的128個代碼是ASCII。

較高的128個代碼中的某些總是跟隨著第二個位元組。這兩個位元組一起(稱作首位元組和跟隨位元組)定義一個字元,通常是一個復雜的象形文字。

② 一個漢字等於多少個位元組

一個字元根據編碼的不同可能等於一個、兩個或三個位元組。無論是漢字、字母、還是標點,它們都是一個字元。在計算機中,一串數碼作為一個整體來處理或運算的,稱為一個計算機字,簡稱字。

位元組的理解

字通常分為若干個位元組(每個位元組一般是8位)。位元組是指一小組相鄰的二進制數碼。通常是8位作為一個位元組。它是構成信息的一個小單位,並作為一個整體來參加操作,比字小,是構成字的單位。

位的理解

在計算中,底層都是晶體管的開關和關閉狀態,我們把一個表示開關狀態的稱之為位,把八位稱之為一個位元組,也就是一個位元組可以表示(00000000-11111111),也就是0到255。字元實際上還不到128個,按道理7位就夠了,一個說法是程序員也比較迷信,認為7是個不吉利的數字,另一種說法,8剛好是2^3地方,更容易計算機去理解。

全新的編碼方法


隨著互聯網的繼續發展,不同的國家,不同的語言都用著不同的編碼,每當不同的人進行交流,都要先知道對方用的是什麼編碼,這往往就造成了溝通的成本,而且經常因為編碼錯誤造成各種烏龍。

國際上就定一了一種全新的編碼方法,全世界所有的字元、文字都有對應的一個編碼,以後,就不需要轉化成不同的編碼了,這便是Unicode編碼。Unicode編碼使用4個位元組來描述一個字元,每個位元組8位,理論上就能表示2^32個不同的字元,全世界的字元都沒這么多。

(2)中文字元的存儲大小擴展閱讀:

UTF8編碼

原先一個英文字元需要1個位元組,一個中文需要兩個位元組,現在需要4個位元組,相當於存儲變大了。這給網路傳輸、系統存儲都帶來了一定的成本。這個時候,人們覺得壓縮一下,於是提出了UTF8,UTF16這樣的表示方法,UTF8我們最經常使用。

對於一個漢字,例如上述學習的學字在Unicode編碼中表示為00000000 00000000 01011011 01100110。很明顯,前面位元組都是0,非常的浪費,最好是能夠把它壓縮起來,又能讓別人知道它原來對應的就是四個位元組。

UTF8就是為了解決這個問題,對於原來是雙字元的中文,會變成3個位元組,第一個位元組以1110開頭,後面兩個以10開頭。剩下的16位分攤到這3個位元組當中。圖中便是這個學字如何從Unicode編碼轉成utf8編碼。

編碼的歷史

1、在Unicode之前,一共存在過3套中文編碼標准。GB2312-80,是中國大陸使用的國家標准,其中一共編碼了6763個常用簡體漢字。

2、Big5,是台灣使用的編碼標准,編碼了台灣使用的繁體漢字,大概有8千多個。

3、HKSCS,是中國香港使用的編碼標准,字體也是繁體,但跟Big5有所不同。

這3套編碼標准都採用了兩個擴展ASCII的方法,因此,幾套編碼互不兼容,而且編碼區間也各有不同。因為其不兼容性,在同一個系統中同時顯示GB和Big5基本上是不可能的。後來,由於各方面的原因,國際上又制定了針對中文的統一字元集GBK和GB18030,其中GBK已經在Windows、Linux等多種操作系統中被實現。

③ 儲存一個漢字需要多少位元組

這個要看你採用什麼編碼,一般Unicode是兩個位元組,不過UTF-8是三個位元組,還有GBK是兩位元組,但是GB18030中有些漢字是四位元組

④ 漢字字模存儲漢字,每個漢字需多少位元組,存儲容量是多少

16×16點陣表示一個漢字,字形碼需用32位元組,
即:位元組數=點陣行數×點陣列數/8
(16×16/8)×3755/1024=117.34375KB
用24×24點陣來表示一個漢字
(24×24/8)×8836/1024=39762KB
1MB=1024KB,轉換成MB就不用我再算了吧!呵呵~~~~~要加分哦~

⑤ 位元組、字元的區別,一個漢字是占兩個位元組還是兩個字元

一個漢字佔2個位元組。

位元組(Byte):位元組是通過網路傳輸信息(或在硬碟或內存中存儲信息)的單位。位元組是計算機信息技術用於計量存儲容量和傳輸容量的一種計量單位,1個位元組等於8位二進制,它是一個8位的二進制數,是一個很具體的存儲空間。

字元:計算機中使用的字母、數字、字和符號,包括:1、2、3、a、b、c、~!•#¥%……—*()——+等等,相當於這些東西的統稱。所以,1個漢字字元會佔用兩個英文字元的位置,存儲需要2個位元組;1個英文字元存儲只佔一個英文字元的位置,存儲需要1個位元組;2個數字為一個位元組。

不同數量級間

信息存儲量是度量存儲器存放程序和數據的數量。其主要度量單位是位元組,1個位元組(Byte)等於8位(b)二進制。位(bit,Binary Digits):存放一位二進制數,即0或1,為最小的存儲單位,8個二進制位為一個位元組單位。一個英文字母(不分大小寫)佔一個位元組的空間,一個中文漢字占兩個位元組的空間。英文標點佔一個位元組,中文標點占兩個位元組。

以上內容參考:網路-位元組

⑥ 一個漢字在計算機中佔用幾個位元組

一個中文漢字占兩個位元組的空間,一個漢字中的標點也是兩個位元組。

計算機信息技術用於計量存儲容量的一種計量單位,通常情況下一位元組等於八位,也在一些計算機編程語言中表示數據類型和語言字元。

一個英文字母(不分大小寫)佔一個位元組的空間。一個二進制數字序列,在計算機中作為一個數字單元,一般為8位二進制數。換算為十進制 ,最小值-128,最大值127。如一個ASCII碼就是一個位元組。

(6)中文字元的存儲大小擴展閱讀:

任何數據類型的數組都需要 20 個位元組的內存空間,加上每一數組維數占 4 個位元組,再加上數據本身所佔用的空間。數據所佔用的內存空間可以用數據元數目乘上每個元素的大小加以計算。

例如,以 4 個 2位元組之 Integer 數據元所組成的一維數組中的數據,占 8 個位元組。這 8 個位元組加上額外的 24 個位元組,使得這個數組所需總內存空間為 32 個位元組。

Byte數據類型(位元組型)用一個位元組(Byte)儲存,可區別256個數字,取值范圍:0到255。 Byte是從0-255的無符號類型,所以不能表示負數。具體參照數據類型。

⑦ 一個中文佔用多少位元組

位元組(Byte):通常將可表示常用英文字元8位二進制稱為一位元組。一個英文字母(不分大小寫)佔一個位元組的空間,一個中文漢字占兩個位元組的空間.符號:英文標點2佔一個位元組,中文標點占兩個位元組.一個二進制數字序列,在計算機中作為一個數字單元,一般為8位二進制數,如一個ASCII碼就是一個位元組,此類單位的換算為:1千吉位元組(KGB,KiloGigaByte)=1024吉位元組1吉位元組(GB,GigaByte)=1024兆位元組1兆位元組(MB,MegaByte)=1024千位元組1千位元組(KB,KiloByte)=1024位元組1位元組(Byte)=8位(bit)

⑧ 計算機中存儲一個漢字需要幾位元組

一個漢字需要兩個位元組,英文則只需要一個位元組。

ASCII碼:一個英文字母(不分大小寫)佔一個位元組的空間。一個二進制數字序列,在計算機中作為一個數字單元,一般為8位二進制數。換算為十進制 ,最小值-128,最大值127。如一個ASCII碼就是一個位元組。

UTF-8編碼:一個英文字元等於一個位元組,一個中文(含繁體)等於三個位元組。中文標點佔三個位元組,英文標點佔一個位元組

Unicode編碼:一個英文等於兩個位元組,一個中文(含繁體)等於兩個位元組。中文標點占兩個位元組,英文標點占兩個位元組。

(8)中文字元的存儲大小擴展閱讀:

易混概念辨析

(1)字

在計算機中,一串數碼作為一個整體來處理或運算的,稱為一個計算機字,簡稱字。字通常分為若干個位元組(每個位元組一般是8位)。在存儲器中,通常每個單元存儲一個字,因此每個字都是可以定址的。字的長度用位數來表示。

在計算機的運算器、控制器中,通常都是以字為單位進行傳送的。字出現在不同的地址其含義是不相同。例如,送往控制器去的字是指令,而送往運算器去的字就是一個數。

(2)字長

計算機的每個字所包含的位數稱為字長。根據計算機的不同,字長有固定的和可變的兩種。固定字長,即字長度不論什麼情況都是固定不變的;可變字長,則在一定范圍內,其長度是可變的。

計算的字長是指它一次可處理的二進制數字的數目。計算機處理數據的速率,自然和它一次能加工的位數以及進行運算的快慢有關。如果一台計算機的字長是另一台計算機的兩倍,即使兩台計算機的速度相同,在相同的時間內,前者能做的工作是後者的兩倍。

一般地,大型計算機的字長為32-64位,小型計算機為12-32位,而微型計算機為4-16位。字長是衡量計算機性能的一個重要因素。

⑨ 某存儲器容量為10M,試計算能夠存儲多少中文字元(每個中文字元占兩個位元組)

10M=10*1024K=10*1024*1024B

可以存儲漢字:10*1024*1024/2=5242880個

可以這樣估算,1024位元組=1KB,1024KB=1MB,1024MB=1GB,以此類推按照這個公式計算40GB的硬碟可以存儲42949672960位元組。再除以2等於21474836480,也就是說40G的硬碟大約可以存儲214億多的漢字。

(9)中文字元的存儲大小擴展閱讀:

一個數位組是數個二進位的組合。早期的不同計算機系統中使用的數位組含有的二進位數目不盡相同。 但數位組在應用上已經統一,即,一個數位組通常由8個二進位組成。16個二進位合成一個字(word),32個二進位構成一個復字(double words)。

數位組是一個承載信息的基本單元。一個數位組表明的信息由所用的編碼方式決定。不同的編碼方式有可能用一個或多個數位組來表示一個數字,一個符號,或者一幅圖像中的一個色點。常用的編碼方式如用來表示字元集的ASCII編碼或者ISO/IEC 8859標準的編碼。