A. 漢字編碼分為哪四種
漢字編碼主要分為四大類:漢字輸入碼、漢字交換碼、漢字內碼和漢字字形碼。
(1)漢字的外部碼
漢字的外部碼簡稱外碼,又叫輸人碼,是輸人漢字的一組鍵盤符號。使用不同的輸入方法,同一漢字的外部碼不同。用戶應選用易記憶、操作簡單、位碼少、重碼少和輸人速度快的外碼。
(2)漢字的內部碼
漢字的內部碼又稱漢字內碼或漢字機內碼。機器接收到外碼後,要轉換成內碼進行存儲、運算和傳送。用二個位元組表示漢字的內碼。為了和西文符號區分,內碼的最高位設為「1」。內碼通常用漢字在車庫中的物理位置表示,可以是漢字在字型檔中的序號,也可以是字型檔中的存儲位置。
(3)漢字交換碼
在計算機之間交換信息時,要求傳送的漢字代碼符合國家規定的交換碼標准,即符合GB2312-80信息交換用漢字編碼集,又稱為國標碼。國標碼收集了7445個圖形字元,其中有6763個漢字和各種符號709個。
(4)漢字字形碼
在顯示或列印漢字時,還涉及到字形碼,又稱輸出碼。漢字字形是指原來鉛字排版漢字的大小和形狀,在計算機中指組成漢字的點陣。
盡管漢字字形有多種變化,筆畫繁簡不一,但都是方塊字且大小相同,都可以寫在同樣的方塊中。把一個方塊看成m行n列矩陣,共有m×n個點,稱為漢字點陣。如16×16點陣的漢字,共有256個點。
漢字編碼
漢字編碼(Chinese character encoding )是為漢字設計的一種便於輸入計算機的代碼。由於電子計算機現有的輸入鍵盤與英文打字機鍵盤完全兼容。因而如何輸入非拉丁字母的文字(包括漢字)便成了多年來人們研究的課題。
漢字信息處理系統一般包括編碼、輸入、存儲、編輯、輸出和傳輸。編碼是關鍵。不解決這個問題,漢字就不能進入計算機。
漢字進入計算機的三種途徑 分別為:
①機器自動識別漢字:計算機通過「視覺」裝置(光學字元閱讀器或其他),用光電掃描等方法識別漢字。
②通過語音識別輸入:計算機利用人們給它配備的「聽覺器官」,自動辨別漢語語音要素,從不同的音節中找出不同的漢字,或從相同音節中判斷出不同漢字。
③通過漢字編碼輸入:根據一定的編碼方法,由人藉助輸入設備將漢字輸入計算機。
機器自動識別漢字和漢語語音識別,國內外都在研究,雖然取得了不少進展,但由於難度大,預計還要經過相當一段時間才能得到解決。在現階段,比較現實的就是通過漢字編碼方法使漢字進入計算機。
B. 漢字在計算機系統中存儲所用的編碼是什麼
GB國標碼:中文內碼之一,代表中文簡化字,在中國大陸廣泛使用,影響所及,使用量漸見普及。
「國家標准信息交換用漢字編碼」(GB2312-80標准),簡稱國標碼。國標碼是指1980年中國制定的用於不同的具有漢字處理功能的計算機系統間交換漢字信息時使用的編碼。國際碼是二位元組碼,
用兩個七位二進制數編碼表示一個漢字。目前國標碼收入6763個漢字,
其中一級漢字(最常用)3755個,
二級漢字3008個,
另外還包括682個西文字元、圖符。