㈠ 怎么判断是不是正确的汉字机内码
汉子机内码用十六进制表示时,第1位和第三位必定大于8。汉字机内码的基础是汉子国际码。汉字机内码=汉字国际码+8080H。这是为了和国际码区分开来,因为加了8080H,所以汉字机内码第1、3位大于等于8。
所谓的国际码加厅带野8080H。首先国际码和机内码扮喊都是由两个字节组成的。区分的依据是机内码里每个字节的最高位为1【行瞎二进制】。即两个字节分别加80h,所以机内码第一、三位大于等于8。
(1)怎么看汉字存储内码扩展阅读:
因为汉字处理系统要保证中西文的兼容,当系统中同时存在ASCII码和汉字国标码时,将会产生二义性。例如:有两个字节的内容为30H和21H,它既可表示汉字“啊”的国标码,又可表示西文“0”和“!”的ASCII码。为此,汉字机内码应对国标码加以适当处理和变换。
国标码的机内码为二字节长的代码,它是在相应国标码的每个字节最高位上加“1”,即
汉字机内码=汉字国标码+8080H
例如,上述“啊”字的国标码是3021H,其汉字机内码则是B0A1H。
汉字机内码的基础是汉字国标码。
㈡ 什么是内码什么是外码
我们常说汉字的"内码"与"外码"。
内码是汉字在计算机内部存储,处理和传输用的信息编码。它必须与ASCII码兼容但又不能冲突。
所以把国标码两个字节的最高位置'1',以区别于西文,这就是内码。汉字的输入码称为"外码"。输入码即指我们输入汉字时使用的编码。常见的外码分为数字编码(如区位码),拼音编码和字形编码(如五笔)。
再说区位码,"啊"的区位码是1601,写成16进制是0x10,0x01。这和计算机广泛使用的ASCII编码冲突。为了兼容00-7f的 ASCII编码,我们在区位码的高、低字节上分别加上A0。这样"啊"的编码就成为B0A1。我们将加过两个A0的编码也称为GB2312编码,虽然 GB2312的原文根本没提到这一点。
内码是指操作系统内部的字符编码。早期操作系统的内码是与语言相关的.现在的Windows在内部统一使用Unicode,然后用代码页适应各种语言,"内码"的概念就比较模糊了。我们一般将缺省代码页指定的编码说成是内码。内码这个词汇,并没有什么官方的定义。代码页也只是微软的一种习惯叫法。作为程序员,我们只要知道它们是什么东西,没有必要过多地考证这些名词。
所谓代码页(code page)就是针对一种语言文字的字符编码。例如GBK的code page是CP936,BIG5的code page是CP950,GB2312的code page是CP20936。
Windows中有缺省代码页的概念,即缺省用什么编码来解释字符。例如Windows的记事本打开了一个文本文件,里面的内容是字节流:BA、BA、 D7、D6。Windows应该去怎么解释它呢?是按照Unicode编码解释、还是按照GBK解释、还是按照BIG5解释,还是按照ISO8859-1 去解释?如果按GBK去解释,就会得到"汉字"两个字。按照其它编码解释,可能找不到对应的字符,也可能找到错误的字符。所谓"错误"是指与文本作者的本意不符,这时就产生了乱码。
答案是Windows按照当前的缺省代码页去解释文本文件里的字节流。缺省代码页可以通过控制面板的区域选项设置。记事本的另存为中有一项ANSI,其实就是按照缺省代码页的编码方法保存。
Windows的内码是Unicode,它在技术上可以同时支持多个代码页。只要文件能说明自己使用什么编码,用户又安装了对应的代码页,Windows就能正确显示,例如在HTML文件中就可以指定charset。
有的HTML文件作者,特别是英文作者,认为世界上所有人都使用英文,在文件中不指定charset。如果他使用了0x80-0xff之间的字符,中文Windows又按照缺省的GBK去解释,就会出现乱码。这时只要在这个html文件中加上指定charset的语句,例如:
<meta http-equiv="Content-Type" content="text/html; charset=ISO8859-1">
如果原作者使用的代码页和ISO8859-1兼容,就不会出现乱码了
㈢ 汉字机内码怎么算出来的
D6DOH
国际码一区位码4-2020H,汉字机内码一国际码+8080H。首先将区位码转换成简腔国际码,然后将国际码加上8080H,即得机内码。
(3)怎么看汉字存储内码扩展阅读:
机内码、国际码、渗迅区位码丛咐此之间的换算
一、将区位码转换为国标码.两区位码改写成十六进制,XXOOH.XX是区码,OO是卫码H代表十六进制.将XXOOH加2020H得到的就是国标码。
二、国标码转换成机内码.将所得到的国标码加8080H,就可得机内码。
如果是机内码转化成国标码,或者是国标码转化成区位码,做减法就可以了
区位码、国标码与机内码的转换关系方法:
(1)区位码先转换成十六进制数表示
(2)(区位码的十六进制表示)+2020H=国标码;
(3)国标码+8080H=机内码
举例:以汉字“大”为例,“大”字的区内码为2083
1、区号为20,位号为83
2、将区位号2083转换为十六进制表示为1453H
3、1453H+2020H=3473H,得到国标码3473H
4、3473H+8080H=B4F3H,得到机内码为B4F3H
小结:字符编码的两种表示方式:ASCII(字符的表示);GB2312(国标码,汉字编码)
㈣ 如何查询汉字的机内码
汉字机内码,又称“汉字ASCII码”,简称“内码”,指计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。输入码被接受后就由汉字操作系统的“输入码转换模块”转换为机内码,与所采用的键盘输入法无关。机内码是汉字前腔最基本的编码,不管是什么汉字系统和汉字输入方慧桐衫法,输入的汉字外码到机器内部都要转换成机内码,才能被存储和进行各种处理。
汉字内码查看器是一款简单易用的汉字内码查询工具。该软件只需要输入一个汉字就可以查看它所对应的十进制和十轮亮六进制的区位码(GBC)、Unicode码和GBK内码。
㈤ 如何查看字符内码
汉字的内部码:也称(机)内码,是计算机内处理汉字信息时所用的汉字代码。
可以使用网络在线汉字转码,如图:
按国际标准制定的汉字和符号的交换码,国标gb2312-80中收仔悔录了7445个汉字及字符,根据每一个字符的特点和位置,所有字符分为94个区、94个位。把区位码区和位分别转换成闭戚团十六进制数。轿橘
㈥ 汉字内码是什么
内码是DEB8H。
5E38H是16进制表示的。
先转化为10进制再转化为2进制。
转化为10进制是5*(16的3次方)+E*(16的2次方)+3*(16的1次方)+8*(16的0次方)=24376
然后将24376转化为2进制,是11111110 0111000
在汉字的国标码的这两个字节的最高位分别置1即得到该汉字内码,所以内码是11111110 1111000=DEB8H。
记住这条规律:国标码+8080H=机内码
5E38+8080 = ?
5+8=13,做雀银D
E+0=E
3+8=11,B
8+0=8
最后加H表示这是十六进制数,所以内码:DEB8H。
(6)怎么看汉字存储内码扩展阅读
每个汉纯宴字有个二进制编码,叫汉字国标码。
在我国汉字代码标准GB2312-80中有6763个常用汉字规定了二进制编码。岁答
每个汉字使用2个字节。
GB2312-80GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节,两个字节的值分别为区号值和位号值加32(20H),因此也称为区位码。
01-09区为符号、数字区,16-87区为汉字区,10-15区、88-94区是有待进一步标准化的空白区。
GB2312将收录的汉字分成两级:第一级是常用汉字计 3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。故而 GB2312最多能表示6763个汉字。
㈦ 什么是汉字的内码、外码、交换码、字形码
1、内码是指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码,通过内码可以达到通用和高效率传输文本的目的。如ASCII。
2、外码是相对于内码而言的辞汇。在计算机科学及相关领域中,外码指的是“外在的‘经过学习之后,可直接了解的编码形式(例如:文字或语音符号)’”。
中文输入法对汉字的编码即属外码。常见的中文外码有仓颉码、行列码、大易码、呒虾米码、注音码、拼音码。
3、交换码是指用于交换文件所使用的编码。对于计算机而言,不同的系统有可能使用不同的内码。但如果不同系统间要基册交换文件,则会发生乱码现象。解决方法则为,在交换文件前,文件提供者先将由内码形式储存的文件转换成交换码形式再做交换。在接收文件后,文件接收者再由交物锋手换码转成内码。
4、字形码,点阵代码的一种。为了将汉字在显示器或打印机上输出,把汉字按图形符号设计成点阵图,就得到了相应的点阵代码(字形码)。用于显示的字库叫显示字库。显示一个汉字一般采用16×16点阵或24×24点阵或48×48点阵。已知汉字点阵的大小,可以计算出存储一个汉字所需占用的字节空间。
5、汉字机内码,又称“汉字ASCII码”,简称“内码”,指计算罩嫌机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。输入码被接受后就由汉字操作系统的“输入码转换模块”转换为机内码,与所采用的键盘输入法无关。机内码是汉字最基本的编码,不管是什么汉字系统和汉字输入方法,输入的汉字外码到机器内部都要转换成机内码,才能被存储和进行各种处理。