当前位置:首页 » 数据仓库 » 汉字构形数据库
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

汉字构形数据库

发布时间: 2023-04-28 15:58:26

‘壹’ 汉字构形学是谁创立的

汉字构形学是探讨汉字祥拦的形体依一定的理据构成和演变的规律的学问。它探讨的是包括个体字符的构成方式和汉字构形的总体系统中所包含的规律。这门学科的创始人是王宁,其《汉字构形学讲座》一书构建了谨森胡汉字构形学的基础理论。这门学科取得的主要成果是王宁主编的“汉字构形史丛书”,包括郑振峰《甲春嫌骨文字构形研究》,罗卫东《春秋金文构形系统研究》,赵学清《战国东方五国文字研究》,陈淑梅《东汉碑隶构形系统研究》,《魏晋行书构形研究》、《隋唐碑志楷书构形研究》、《宋代雕板楷书研究》、《云居寺明刻石经文字构形研究》。

‘贰’ 中国推出几个汉字编码字符集

推出了6个符集。

‘叁’ 我国大陆地区使用的汉字字符集是

汉字字符集编码查询
输入:

B0A1 A996

查询

输出:

输入汉字查询对应的编码,或者输入编码查询对应的汉字。一次最多查询99个字或编码:输入汉字时连续输入即可;输入编码时,每个举侍编码之间用空格分隔(也可以是逗号或分号)。

字符集编码是指对多个字符(通常在几十到几万个不等)进行整合封装成正告吵一个文件所使用的编码,外部程序通过这种编码就可以从字符集文件中调用指定的字符。我们常见的计算机字体文件就使用了字符集编码,通过输入法输入文字或者浏览网页时都会通过指定的字符集编码从字体文件中调用字符。

以下是常见的汉字字符集编码:

GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。

BIG5编码:台湾地区繁体中文标准字符集,采用双字节编码,共收录13053个中文字,1984年实施。

GBK编码:1995年12月发布的汉字编码国家标准,是对GB2312编码的扩充,对汉字采用双字节编码。GBK字符集共收录21003个汉字,包含国家标准GB13000-1中的全部中日韩汉字,和BIG5编码中的所有汉字。

GB18030编码:2000年3月17日发布的汉字编码国家标准,是对GBK编码的扩充,覆盖中文、日文、朝鲜语和中国少数民族文字,其中收录27484个汉字。GB18030字符集采用单字节、双字节和四友旦字节三种方式对字符编码。兼容GBK和GB2312字符集。

Unicode编码:国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。

‘肆’ 仔细阅读下面的材料,说说你对汉字的认识

汉字是汉语书写的最基本单元,其使用最晚始于商代,历经甲骨文、大篆、小篆、隶书、楷书(草书、行书)诸般书体变化。秦始皇统一中国,李斯整理小篆,“书同文”的历史从此开始。尽管汉语方言发音差异很大,但是书写系统的统一减少了方言差异造成的交流障碍。
东汉许慎在《说文解字》中将汉字构造规律概括为“六书”:象形、指事、会意、形声、转注、假借。其中,象形、指事、会意、形声四项为造字原理,是“造字法”;而转注、假借则为用字规律,是“用字法”。
三千余年来,汉字的书写方式变化不大,使手伍得后人得以阅读古文而不生窒碍。但镇带近代西方文明进入东亚之后,整个汉字文化圈的各个国家纷纷掀起了学习西方的思潮,其中,放弃使用汉字是这场运动的一个重要方面。这些运动的立论以为:跟西方拼音文字相比,汉字是繁琐笨拙的。许多使用汉字国家即进行了不同程度的汉字简化,甚至还有完全拼音化的尝试。日文假名的拉丁转写方案以及汉语多种拼音方案的出现都是基于这种思想。中国大陆将汉字笔划参考行书草书加以省简,于1956年1月28日审订通过《简化字总表》,在中国及新加坡使用至今。台湾则一直使用繁体中文。
目前在使用汉语毕旅或的地区,大都使用两种规范汉字,分别是繁体中文(繁体字)和简体中文(简体字)。
汉字,是记录汉语的文字系统,并仍然或曾经在日语和朝鲜语、越南语中使用。汉字是世界上最古老的文字之一,拥有4500年以上的历史。狭义地说,它是汉族的文字;广义地言,它是汉字文化圈共同的文字。
汉字是承载文化的重要工具,目前留有大量用汉字书写的典籍。不同的方言都使用汉字作为共同书写体系,因而汉字在历史上对中华文明的传播起到了重要作用,并成为东南亚文化圈形成的内在纽带。在汉字发展过程中,留下了大量诗词、对联等文化,并形成了独特的汉字书法艺术。
一个汉字一般具有多种含义,也具有很强的组词能力,且很多汉字可独立成词。这导致了汉字极高的“使用效率”,2000左右常用字即可覆盖98%以上的书面表达方式。加之汉字表意文字的特性,汉字的阅读效率很高。汉字具备比字母文字更高的信息密度,因此,平均起来,同样内容的中文表达比其他任何字母语言的文字都短。
目前的汉字体系分为繁体字和简体字,前者用于台湾、香港、澳门和北美的华人圈中,后者用于中国大陆和新加坡以及东南亚的华人社区。通常说来,两种汉字书写系统虽然有差异,常用汉字的个体差异不到25%。
由于汉字书写复杂,“汉字落后论”的说法存在了很长时间,认为汉字是教育及信息化瓶颈,并有“汉字拉丁化”甚至废除汉字的推动行为。现在一般认为汉字也有突出优点,初始学习难度虽大,但掌握常用字后不存在类似海量英文单词的继续学习问题,且其表意特性也能充分调动人脑的学习能力。在计算机输入问题基本解决后,“汉字落后论”及“汉字拉丁化”已实际上逐渐被大多数人抛弃。
目前汉字系统已经基本稳定,但汉字的规范化、生僻字的自然消亡仍在继续进行。
关于汉字编码
为进行信息交换,各汉字使用地区都制订了一系列汉字字符集标准。
① GB2313字符集,收入汉字6763个,符号715个,总计7478个字符,这是大陆普遍使用的简体字符集。楷体-GB2313、仿宋-GB2313、华文行楷等市面上绝大多数字体支持显示这个字符集,亦是大多数输入法所采用的字符集。市面上绝大多数所谓的繁体字体,其实采用的是GB-2313字符集简体字的编码,用字体显示为繁体字,而不是直接用GBK字符集中繁体字的编码,错误百出。
② BIG-5字符集,收入13060个繁体汉字,808个符号,总计13868个字符,目前普遍使用于台湾、香港等地区。台湾教育部标准宋体楷体等港台大多数字体支持这个字符集的显示。
③ GBK字符集,又称大字符集(GB=GuóBiāo国标,K=扩展),包含以上两种字符集汉字,收入21003个汉字,882个符号,共计21885个字符,包括了中日韩(CJK)统一汉字20902个、扩展A集(CJK Ext-A) 中的汉字52个。Windows 95\98简体中文版就带有这个GBK.txt文件。宋体、隶书、黑体、幼圆、华文中宋、华文细黑、华文楷体、标楷体(DFKai-SB)、Arial Unicode MS、MingLiU、PMingLiU等字体支持显示这个字符集。微软拼音输入法2003、全拼、紫光拼音等输入法,能够录入如镕镕炁夬喆嚞姤赟赟䶮昳堃慜靕臹等GBK简繁体汉字。
BIG-5 (繁体中文)与GB-2313 (简体中文),编码不相兼容,字符在不同的操作系统中便产生乱码。文本文字的简体与繁体(文字及编码)之间的转换,可用BabelPad、TextPro或Convertz之类的转码软件来解决。若是程序,Windows XP操作系统,可用Microsoft AppLocale Utility 1.0解决;Windows 2000的操作系统,大概只有用:中文之星、四通利方、南极星、金山快译之类的转码软件方能解决了。
④ GB18030字符集,包含GBK字符集、CJK Ext-A 全部6582个汉字,共计27533个汉字。宋体-18030、方正楷体(FZKai-Z03)、书同文楷体(MS Song)宋体(ht_cjk+)、香港华康标准宋体(DFSongStd)、华康香港标准楷体、CERG Chinese Font、韩国New Gulim,以及微软Windows Vista操作系统提供的宋黑楷仿宋等字体亦支持这个字符集的显示。Windows 98支持这个字符集,以下的字符集则不支持。手写输入法逍遥笔4.0版支持GB18030字符集及方正超大字符集汉字的录入。
⑤ 方正超大字符集,包含GB18030字符集、CJK Ext-B中的36862个汉字,共计64395个汉字。宋体-方正超大字符集支持这个字符集的显示。Microsoft Office XP或2003简体中文版就自带有这个字体。Windows 2000的操作系统需安装超大字符集支持包“Surrogate更新”。
⑥ ISO/IEC 10646 / Unicode字符集,这是全球可以共享的编码字符集,两者相互兼融,涵盖了世界上主要语文的字符,其中包括简繁体汉字,计有:CJK统一汉字20902个,CJK Ext-A 6582个,Ext-B 42711个,共计70195个汉字。SimSun-ExtB(宋体)、MingLiU-ExtB(细明体)能显示全部Ext-B汉字。至今尚无单独一款字体能够显示全部70195个汉字,但可用海峰五笔、新概念五笔、仓颉输入法世纪版、新版的微软新注音、仓颉输入法 6.0 版(单码功能)等输入法录入。Ext-C还有2万多个汉字。详情请参阅香港中文大学网站、马来西亚仓颉之友网站、福建陈清钰个人网站。
⑦ 汉字构形数据库2.3版,内含楷书字形60082个、小篆11100个、楚系简帛文字2627个、金文3459个、甲骨文177个、异体字12768组。可以安装该程序,亦可以解压后使用其中的字体文件,对于整理某些古代文献十分有用。
如果超出了输入法所支持的字符集,就不能录入计算机。如果没有相应字体的支持,则显示为黑框、方框或空白。如果操作系统或应用软件不支持该字符集,则显示为问号(一个或两个)。在网页上亦存在同样的情况。
关于Unicode
由于各国国家标准字集所收的汉字字数、常用字的差异,虽然象中国两岸GB/BIG5字集常用字基本类似,转换后阅读并不成问题,但是这种编码转换的混乱关系,对文字交流始终是一种障碍。因此相关国家的标准化组织和文字工作者经过共同努力,终于在93年完成了包含中日韩(CJK)汉字的Unicode 汉字标准ISO 10646.1。 Unicode是完全双字节表示的多国文字编码体系,编码空间0x0000-0xFFFF。 ISO 10646.1汉字标准使用编码0x4E00-9FA5,共包含20902个汉字。其中: 大陆(S)提出的汉字17124个,台湾(T)提出的汉字17258个; S与T的并集,即中国(C)提出的汉字为20158个。 日本(J)提出的汉字为12157个,中国未提出的690个(Ja); 韩国(K)提出的汉字为7477个,其中中国未提出的90个(Ka); Ja与Ka并集共744字。 支持Unicode编码的相关电脑系统软件,如Unix, Win95已有推出,但是由于Unicode的ASCII码是用双字节编码(即一般电脑系统中的单字节ASCII码前加 0x00),同时其汉字编码与各国的现有编码也不兼容,造成现有的软件和数据不能直接使用,所以目前完全使用Unicode软件系统的用户并不多,大多数只将它此作为一个国际语言编码标准来使用。

‘伍’ 仓颉输入法怎么应用

仓颉输入法仓颉输入法是一种常用的中文输入法,由有“中文电脑之父”称誉的台湾人朱邦复先生于1976年创制。初期只有正体中文版本,原名“形意检字法”,用以解决电脑处理汉字的问题,包括汉字输入、字形输出、内码储存、汉字排序等。朱邦复发明此输入法时正值他为三军大学发展中文通讯系统之际,为纪念上古时期仓颉造字之精神,蒋纬国于1978年将此输入法重新定名为“仓颉输入法”。1980年,与宏碁公司共同发表世上首部具有“中文操作系统、中文程式语言、中文套装软体”之中文电脑—天龙中文电脑。 仓颉输入法适用于多种平台,主流操作系统和大部分电子辞典均有内嵌。一些线上汉字字典也采用仓颉编码作为检索工具。 1980年代初期,朱邦复在个人电脑上设计中文系统,以仓颉码为其根本,收字数万,效率甚高。 1982年,朱邦复登报公开放弃仓颉输入法专利权,并且极力推动电脑之中文化。现今大部分操作系统,甚至一些电子辞典皆附有仓颉输入法,为正体中文世界最普及的形码输入法。[1]。 朱邦复本来想根据其“汉字基因”理论,建立一套“银升仓颉系统”,用仓颉码统一处理汉字的形、音、义、码、序、辨等六大问题。其中仓颉码的原始目的是汉字检索及排序,其取码具有字首及字身的概念,以字首做为分类,字身做为补充,如此便可让电脑“理解”汉字,进而达到组字、字义理解,甚至与人沟通的功能。 [编辑本段]创建人 仓颉输入法24个基本字形由于本以汉字检索为目的,仓颉取码依据视觉辨识原理,能反映汉字的细微特征,御握几乎所有不同字形或异体字,都有不同的编码,因此重码率为当今中文输入法最低者。仓颉输入法亦为一般系统中支援字库最大者,几乎所有系统可见的汉字,皆可用仓颉锋拆老输入法键入,因此也成为汉字文化工作者选用的主要输入法。然而,当今主流电脑系统只提供仓颉输入法,没有采用整套仓颉系统,因此许多原先的设计理念,如仓颉内码、字型产生器与极大字库等,都没有实现。朱先生公开仓颉输入法,不收分文,使电脑汉化得到很大的进展。现今大部份作业系统皆附有仓颉输入法。它是繁体中文使用地区最常用的形码输入法。目前最新的公开版本是第五代。待公开的第六代,为十万字库设计,重码率低。字库收录历代文献用字,以仓颉码作字库内码。这版本现仅提供部份专家学者使用。 [编辑本段]软件优势仓颉输入法的设计原意不单用来输入,更是一个整合的中文系统。汉字以仓颉码为内码,使汉字的字序 分明,新字随时添加,没有大五码和统一码的收字不足,字序混乱的缺点。输出方面,汉字字形产生器以仓颉码为基本,自动产生字形。不需储存每一个字的字形,大大减少所需记忆空间。(例如朱邦复于1989年推出用第五代仓颉的聚珍整合系统,提供符合汉字结构的字数百万,有七万为实际用字。)由于输入输出统一以仓颉处理,取码可以与字形一致。现时以第六代仓颉(又称苍颉)为内核的中文系统,用来建构收录中国历代文献的汉文史资料库,仓颉系统的优点得到发挥。 [编辑本段]版本沿革1977年,朱邦复在台湾发表第一代仓颉,根据一万二千字的《国语辞典》所设计。 1980年,发表第二代仓颉,仅将第一代仓颉略作调整。 1982年,发表第三代仓颉,是以《康熙字典》为范围,选取其中四万字,将第二代加以改良的结果。 1985年,在美国发表第四代仓颉。 1987年,返中国深圳科技园,任两仪文化科技公司总经理,发表聚珍大字库、第五代仓颉输入法。第五代将正、简体字统一处理,共收集了约六万字,同时增加一些辅助字形及修正了少许的取码。在朱邦复工作室网站上的《第五代仓颉输入法手册》一书中提供了第三代、第五代改码字的对照表。 1990年,与台湾资策会合作开发微软中文视窗系统3.0,采用仓颉系统的概念。后来朱邦复与微软的合作关系破裂,之后Windows系统改采其他的汉字编码系统,并自行更新第三代仓颉输入法(修改了一些异体字及加入了部分香港字,但有错码),成为目前所见的主流版本。目前一般所称的“三代仓颉”多指此版。 2002年,朱邦复在其论坛提及:“仓颉输入法最后一版本——第六代已完成,并据之设计中文CPU”。因为朱邦复已不理输入法之事,转交沈红莲女士照料。第六代仓颉输入法改名为“苍颉检字法”,至2008年止未曾公开,仅供与“朱邦复工作室”有工作关系之专家学者使用。 [编辑本段]支持配置 仓颉输入法Microsoft Windows Windows 95/98/NT/ME/2000/XP等操作系统中内建的仓颉输入法是第三代的修改版;Windows Vista/7内建的仓颉输入法则兼容第三代和第五代(默认情况下,仅支援第三代;设定使用CNS11643国家标准中文交换码字根后,可同时支援第三代和第五代)。 Macintosh Mac OS X 10.4内附的为第五代。 Linux SCIM同时提供第三代和第五代,部份如OXIM只提供第五代。 其他 电子辞典等平台,中文全字库、汉字构形数据库等汉字数据库检索系统,皆采用第三代。而朱邦复推广的汉文库典,则采用第五代。 此外网络上还有许多自制的仓颉输入法(见#从仓颉衍生的输入法一节),三代和五代皆有,例如马来西亚。仓颉之友所制作的仓颉第五代通用版、国际版与香港版等,采用了五代仓颉。 [编辑本段]仓颉字码 仓颉输入法分为五大类,共26个仓颉字母,括号文字为相对键及读音: 五行类:日(A)、月(B)、金(C)、木(D)、水(E)、火(F)、土(G) 笔划类:竹(H,音斜)、戈(I,音点)、十(J,音交)、大(K,音叉)、中(L,音纵)、一(M,音横)、弓(N,音勾) 人体类:人(O)、心(P)、手(Q)、口(R) 字型类:尸(S,音则)、廿(T,音并)、山(U,音仰)、女(V,音纽)、田(W,音方)、卜(Y) 复合类:无论在任何情况下,最多取首尾两码,包括:鬼(HI)、虍(YP)、斗(LN)、目(BU)、门(AN)、阝(NL)、几(VI,不包括左下角的人)、隹(OG)、吂(YR) 特殊类:难(X),用于特定的笔划,包括:臼(HX),卍(NX)等约十一种笔划;重(Z)(在第三代中不再使用,被一些自制仓颉当作特殊键) 首24个仓颉字母还可再变化、衍生出“辅助字形”来辨别所有的中文字。例如:“叉”字拆解为“又+丶”,对应字母为 E+I,其中这个“又”就是“水”这个仓颉字母的辅助字形。 [编辑本段]取码原则中文字根据“由上而下,由左而右,由外而内”等原则分拆成字型结构,再以字码拼出。键盘上A至Y键各代表一字码(X键用于特殊字,Z键通常不用),例如A是“日”、N是“弓”。字码分表代表不同的中文字字型结构。取码分字首及字身,一个中文字最少用一码输入,最长则为五码。更有一口诀: 独体字:即不能成几部份的,取码:头、二、三。业-廿金廿木-TCTD 合体字:又可分为: 可分成两部份的:头尾、头二尾,例如:瑜-一土人一弓-MGOMN 可分成三部份的:头尾、头尾,尾(如字身一只一个码时,则字身二可取头尾两码),例如:髓-月月卜大月-BBYKB 其他例子: “理”字 -(分拆)-> 一+土+田+土 -(对应字母)-> M+G+W+G “哈”字 -(分拆)-> 口+人+一+口 -(对应字母)-> R+O+M+R 仓颉五代多字词取码规则: (注:以下所指的 首/末,是其作为单字编码中所取的首尾码字母) 二字词:首末+首末=4; 三字词:首+首+首末=4; 四字词:首+首+首+首末=5. 从仓颉衍生的输入法简易/速成输入法: 简易输入法(DOS年代的称呼),或称速成输入法(中文Windows的称呼),又简称作简易或速成,为仓颉输入法之简化版本。其拆字法与仓颉相同,但只取其仓颉码的首尾两码,而不是每个字型的首尾两码,所以一个中文字最长只有两码。此取码法比较简单,所以较受初学者欢迎,但用者要从大量同码字中选择需要的字,令输入速度相对变慢。不过一些人已将数字码的部份亦死记下来,使输入速度提升。另外,由于早期已预设在Windows作业系统内,不需另行安装,是很多电脑内最常预设的输入法之一,所以有不少使用者。 [编辑本段]仓颉字根口诀G 土旁土与士 F 火小三四滴 D 木寸少心力 S 尸首左右柜,右侧梯,左弯钩 A 日曰日横立 -------------------------- H 竹头撇斤首 J 十宝玉不留 K 大病右爻头 L 中竖衣(衤)聿首 聿yu M 一提工厂石无口 -------------------------- T 廿草昔首头,业无眼,关下头 R 口 E 水滂雨点又 W 田囗毋空腹 囗wei Q 手旁半少头,夫失足,年无头 -------------------------- Y 卜卞斗首走(辶) U 山上框渔叉 I 戈点广县底 O 人入捺,矢无大,左倒八 P 心勹七匕弋失喉 勹bao 弋yi -------------------------- N 弓乙左竖勾,斜月飞头 B 月且然半下框爵 V 女折衣底右弯勾 C 金儿八米头 X 难 [编辑本段]分类分为五大类,共26个仓颉字母,括号文字为相对键及读音: 五行类:日(A)、月(B)、金(C)、木(D)、水(E)、火(F)、土(G) 笔划类:竹(H,音斜)、戈(I,音点)、十(J,音交)、大(K,音叉)、中(L,音纵)、一(M,音横)、弓(N,音勾) 人体类:人(O)、心(P)、手(Q)、口(R) 字型类:尸(S,音则)、廿(T,音并)、山(U,音仰)、女(V,音纽)、田(W,音方)、卜(Y) 复合类:无论在任何情况下,最多取首尾两码,包括:鬼(HI)、虍(YP)、斗(LN)、目(BU)、门(AN)、阝(NL)、几(VI,不包括左下角的人)、隹(OG)、吂(YR) 特殊类:难(X),用于特定的笔划,包括:臼(HX),卍(NX)等约十一种笔划;重(Z)(在第三代中不再使用,被一些自制仓颉当作特殊键) 首24个仓颉字母还可再变化、衍生出“辅助字形”来辨别所有的中文字。例如:“叉”字拆解为“又+丶”,对应字母为 E+I,其中这个“又”就是“水”这个仓颉字母的辅助字形。 [编辑本段]取码原则 中文字根据“由上而下,由左而右,由外而内”等原则分拆成字型结构,再以字码拼出。键盘上A至Y键各代表一字码(X键用于特殊字,Z键通常不用),例如A是“日”、N是“弓”。字码分表代表不同的中文字字型结构。取码分字首及字身,一个中文字最少用一码输入,最长则为五码。更有一口诀: 独体字:即不能成几部份的,取码:头、二、三。业-廿金廿木-TCTD 合体字:又可分为: 可分成两部份的:头尾、头二尾,例如:瑜-一土人一弓-MGOMN 可分成三部份的:头尾、头尾,尾(如字身一只一个码时,则字身二可取头尾两码),例如:髓-月月卜大月-BBYKB 其他例子: “理”字 -(分拆)-> 一+土+田+土 -(对应字母)-> M+G+W+G “哈”字 -(分拆)-> 口+人+一+口 -(对应字母)-> R+O+M+R 仓颉五代多字词取码规则: (注:以下所指的 首/末,是其作为单字编码中所取的首尾码字母) 二字词:首末+首末=4; 三字词:首+首+首末=4; 四字词:首+首+首+首末=5

‘陆’ 什么是汉字的构字理据

从总体看,汉字并没有发生性质的变化,它的基本构形特点一直是保留着的郑圆.每一个汉字有它的构字意图,构意被公认便成为造字理据,而随着汉字的发展,它的构字理据发生改变.

一、造字理据的形成

据考察和推论,汉字正式起源大约
6000
年以前。汉字的存在切切实实被证实,从殷商
的甲骨文算起,距今也有
3600
年。几个世纪以来,汉字的具体构喊答塌形方式发生了很多变化,
从不同的历史时期,即使是一个字的形体,也大多有或多或少的差异。但是,从总体看,汉
字的基本构形特点一直保留着。
汉字构形的最大特点是它要根据所表达的意义来构形,
因此,
汉字的形体总是携带着可供分析的意举纳义信息。
汉字形体中课分析的意义信息,
来自原初造字
时造字者的一种主观造字意图,我们称作构意,也称造意。造意一旦为使用的群众所公认,
便成为一种可分析的客体,我们称作造字理据。