① 一个汉字到底是多少个字符,高手请进
一个汉字占用2个字符。
在 ASCII 编码中,一个英文字母的字符存储需来要1个字节。在 GB 2312 编码或 GBK 编码中,一个汉字字符自存储需要2个字节。在UTF-8编码中,一个英文字母字符存储需要1个字节,一个汉字字符储存需要3到4个字节。
在UTF-16编码中,一个英文字母字符或一个汉字字符存储都需要2个字节百(Unicode扩展区的一些汉字存储需要4个字节)。在UTF-32编码中,世界上任何字符的存储都需要4个字节。
(1)中文字符的存储大小扩展阅读
汉字的文字编码标准主要有 ASCII、GB2312、GBK、Unicode等。ASCII 编码是最简单的西文编码方案。GB2312、GBK、GB18030 是汉字字符编码方案的国家标准。ISO/IEC 10646 和 Unicode 都是全球字符编码的国际标准。
为了解决中国、日本和韩国的象形文字符和ASCII的某种兼容性,出现了双字节字符集,DBCS从 第256 代码开始,就像ASCII一样,最初的128个代码是ASCII。
较高的128个代码中的某些总是跟随着第二个字节。这两个字节一起(称作首字节和跟随字节)定义一个字符,通常是一个复杂的象形文字。
② 一个汉字等于多少个字节
一个字符根据编码的不同可能等于一个、两个或三个字节。无论是汉字、字母、还是标点,它们都是一个字符。在计算机中,一串数码作为一个整体来处理或运算的,称为一个计算机字,简称字。
字节的理解
字通常分为若干个字节(每个字节一般是8位)。字节是指一小组相邻的二进制数码。通常是8位作为一个字节。它是构成信息的一个小单位,并作为一个整体来参加操作,比字小,是构成字的单位。
位的理解
在计算中,底层都是晶体管的开关和关闭状态,我们把一个表示开关状态的称之为位,把八位称之为一个字节,也就是一个字节可以表示(00000000-11111111),也就是0到255。字符实际上还不到128个,按道理7位就够了,一个说法是程序员也比较迷信,认为7是个不吉利的数字,另一种说法,8刚好是2^3地方,更容易计算机去理解。
全新的编码方法
随着互联网的继续发展,不同的国家,不同的语言都用着不同的编码,每当不同的人进行交流,都要先知道对方用的是什么编码,这往往就造成了沟通的成本,而且经常因为编码错误造成各种乌龙。
国际上就定一了一种全新的编码方法,全世界所有的字符、文字都有对应的一个编码,以后,就不需要转化成不同的编码了,这便是Unicode编码。Unicode编码使用4个字节来描述一个字符,每个字节8位,理论上就能表示2^32个不同的字符,全世界的字符都没这么多。
(2)中文字符的存储大小扩展阅读:
UTF8编码
原先一个英文字符需要1个字节,一个中文需要两个字节,现在需要4个字节,相当于存储变大了。这给网络传输、系统存储都带来了一定的成本。这个时候,人们觉得压缩一下,于是提出了UTF8,UTF16这样的表示方法,UTF8我们最经常使用。
对于一个汉字,例如上述学习的学字在Unicode编码中表示为00000000 00000000 01011011 01100110。很明显,前面字节都是0,非常的浪费,最好是能够把它压缩起来,又能让别人知道它原来对应的就是四个字节。
UTF8就是为了解决这个问题,对于原来是双字符的中文,会变成3个字节,第一个字节以1110开头,后面两个以10开头。剩下的16位分摊到这3个字节当中。图中便是这个学字如何从Unicode编码转成utf8编码。
编码的历史
1、在Unicode之前,一共存在过3套中文编码标准。GB2312-80,是中国大陆使用的国家标准,其中一共编码了6763个常用简体汉字。
2、Big5,是台湾使用的编码标准,编码了台湾使用的繁体汉字,大概有8千多个。
3、HKSCS,是中国香港使用的编码标准,字体也是繁体,但跟Big5有所不同。
这3套编码标准都采用了两个扩展ASCII的方法,因此,几套编码互不兼容,而且编码区间也各有不同。因为其不兼容性,在同一个系统中同时显示GB和Big5基本上是不可能的。后来,由于各方面的原因,国际上又制定了针对中文的统一字符集GBK和GB18030,其中GBK已经在Windows、Linux等多种操作系统中被实现。
③ 储存一个汉字需要多少字节
这个要看你采用什么编码,一般Unicode是两个字节,不过UTF-8是三个字节,还有GBK是两字节,但是GB18030中有些汉字是四字节
④ 汉字字模存储汉字,每个汉字需多少字节,存储容量是多少
16×16点阵表示一个汉字,字形码需用32字节,
即:字节数=点阵行数×点阵列数/8
(16×16/8)×3755/1024=117.34375KB
用24×24点阵来表示一个汉字
(24×24/8)×8836/1024=39762KB
1MB=1024KB,转换成MB就不用我再算了吧!呵呵~~~~~要加分哦~
⑤ 字节、字符的区别,一个汉字是占两个字节还是两个字符
一个汉字占2个字节。
字节(Byte):字节是通过网络传输信息(或在硬盘或内存中存储信息)的单位。字节是计算机信息技术用于计量存储容量和传输容量的一种计量单位,1个字节等于8位二进制,它是一个8位的二进制数,是一个很具体的存储空间。
字符:计算机中使用的字母、数字、字和符号,包括:1、2、3、a、b、c、~!•#¥%……—*()——+等等,相当于这些东西的统称。所以,1个汉字字符会占用两个英文字符的位置,存储需要2个字节;1个英文字符存储只占一个英文字符的位置,存储需要1个字节;2个数字为一个字节。
不同数量级间
信息存储量是度量存储器存放程序和数据的数量。其主要度量单位是字节,1个字节(Byte)等于8位(b)二进制。位(bit,Binary Digits):存放一位二进制数,即0或1,为最小的存储单位,8个二进制位为一个字节单位。一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。英文标点占一个字节,中文标点占两个字节。
以上内容参考:网络-字节
⑥ 一个汉字在计算机中占用几个字节
一个中文汉字占两个字节的空间,一个汉字中的标点也是两个字节。
计算机信息技术用于计量存储容量的一种计量单位,通常情况下一字节等于八位,也在一些计算机编程语言中表示数据类型和语言字符。
一个英文字母(不分大小写)占一个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数。换算为十进制 ,最小值-128,最大值127。如一个ASCII码就是一个字节。
(6)中文字符的存储大小扩展阅读:
任何数据类型的数组都需要 20 个字节的内存空间,加上每一数组维数占 4 个字节,再加上数据本身所占用的空间。数据所占用的内存空间可以用数据元数目乘上每个元素的大小加以计算。
例如,以 4 个 2字节之 Integer 数据元所组成的一维数组中的数据,占 8 个字节。这 8 个字节加上额外的 24 个字节,使得这个数组所需总内存空间为 32 个字节。
Byte数据类型(字节型)用一个字节(Byte)储存,可区别256个数字,取值范围:0到255。 Byte是从0-255的无符号类型,所以不能表示负数。具体参照数据类型。
⑦ 一个中文占用多少字节
字节(Byte):通常将可表示常用英文字符8位二进制称为一字节。一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间.符号:英文标点2占一个字节,中文标点占两个字节.一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数,如一个ASCII码就是一个字节,此类单位的换算为:1千吉字节(KGB,KiloGigaByte)=1024吉字节1吉字节(GB,GigaByte)=1024兆字节1兆字节(MB,MegaByte)=1024千字节1千字节(KB,KiloByte)=1024字节1字节(Byte)=8位(bit)
⑧ 计算机中存储一个汉字需要几字节
一个汉字需要两个字节,英文则只需要一个字节。
ASCII码:一个英文字母(不分大小写)占一个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数。换算为十进制 ,最小值-128,最大值127。如一个ASCII码就是一个字节。
UTF-8编码:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。中文标点占三个字节,英文标点占一个字节
Unicode编码:一个英文等于两个字节,一个中文(含繁体)等于两个字节。中文标点占两个字节,英文标点占两个字节。
(8)中文字符的存储大小扩展阅读:
易混概念辨析
(1)字
在计算机中,一串数码作为一个整体来处理或运算的,称为一个计算机字,简称字。字通常分为若干个字节(每个字节一般是8位)。在存储器中,通常每个单元存储一个字,因此每个字都是可以寻址的。字的长度用位数来表示。
在计算机的运算器、控制器中,通常都是以字为单位进行传送的。字出现在不同的地址其含义是不相同。例如,送往控制器去的字是指令,而送往运算器去的字就是一个数。
(2)字长
计算机的每个字所包含的位数称为字长。根据计算机的不同,字长有固定的和可变的两种。固定字长,即字长度不论什么情况都是固定不变的;可变字长,则在一定范围内,其长度是可变的。
计算的字长是指它一次可处理的二进制数字的数目。计算机处理数据的速率,自然和它一次能加工的位数以及进行运算的快慢有关。如果一台计算机的字长是另一台计算机的两倍,即使两台计算机的速度相同,在相同的时间内,前者能做的工作是后者的两倍。
一般地,大型计算机的字长为32-64位,小型计算机为12-32位,而微型计算机为4-16位。字长是衡量计算机性能的一个重要因素。
⑨ 某存储器容量为10M,试计算能够存储多少中文字符(每个中文字符占两个字节)
10M=10*1024K=10*1024*1024B
可以存储汉字:10*1024*1024/2=5242880个
可以这样估算,1024字节=1KB,1024KB=1MB,1024MB=1GB,以此类推按照这个公式计算40GB的硬盘可以存储42949672960字节。再除以2等于21474836480,也就是说40G的硬盘大约可以存储214亿多的汉字。
(9)中文字符的存储大小扩展阅读:
一个数位组是数个二进位的组合。早期的不同计算机系统中使用的数位组含有的二进位数目不尽相同。 但数位组在应用上已经统一,即,一个数位组通常由8个二进位组成。16个二进位合成一个字(word),32个二进位构成一个复字(double words)。
数位组是一个承载信息的基本单元。一个数位组表明的信息由所用的编码方式决定。不同的编码方式有可能用一个或多个数位组来表示一个数字,一个符号,或者一幅图像中的一个色点。常用的编码方式如用来表示字符集的ASCII编码或者ISO/IEC 8859标准的编码。