简繁通用汉字形义码元编码输入法及其键盘

阅读: 评论:0

著录项
  • CN200910064558.5
  • 20090407
  • CN101859183A
  • 20101013
  • 张建平
  • 张建平
  • G06F3/023
  • G06F3/023

  • 河南省郑州市新郑路3号物探测量队
  • 中国,CN,河南(41)
摘要
简繁通用汉字形义码元编码输入法及其键盘是一项涉及中文信息处理领域的发明。发明提出了码元、构件、构型的概念,澄清了以往的模糊观念,对汉字的结构认识上了一个层次,并把对汉字的拆分简化为对构件的拆分。该发明精选的汉字码元依形取义,依义分区按位命名,易学好记,使得该方法不但上手快,而且不易遗忘。发明可用于计算机汉字输入、辞书编纂中的汉字索引,也可用于手机等掌中设备的汉字输入。此外,可忽略的重码是本发明的重大突破,弥补了以往编码方法的不足。
权利要求

1.种用于计算机中英文输入的,形义码元中文键盘其特征在于:

①、计算机键盘的按键表面不但刻印着英文字母、同时还刻印着本发明的形义码元。

②、计算机键盘字母按键上的形义码元与英文字母的映射关系由本发明的形义码元表及

码元代码与英文字母的映射关系确定,下面为形义码元表。

③、每个形义码元都有一个数字区位代码,并将英文字母键盘分做六个区,每区五个位,码元分区与英文字母键盘的分区映射关系见下表:

④、形义码元中文键盘按键表面设计实例见附图1。

2.根据权利1,一种用于计算机的中文键盘键贴的特征是:根据形义码元与英文字母的映射关系,将形义码元印制在贴纸上,成为键贴产品,形义码元中文键盘可由键贴贴在字母按键上构成。

3.一种汉字编码计算机键盘输入方法的特征在于:

①、本发明的形义码元及代码体系与计算机键盘按键的映射关系,包含数字代码和英文字母代码。

②、建立在笔划及笔顺、码元、构件、构型、补码等基本概念定义基础上的对汉字的认知。

③、分解按先“汉字→构件”、再“构件→码元”顺序,及按照“能二不三,能疏不缠,顺序拆分,顺畅自然;夹型披点,保效直观,超越笔顺,化繁为简”的拆分口诀将汉字拆解成码元序列。

④、以下列规则得到汉字编码:

独型字、围型字的编码

按拆解的码元顺序取一、二、三、末码元编码,不足四码加补码。

叠型汉字(g1+g2+…gn)的编码

按顺序取1、(2)、(3)、末码元编码。不足四码加补码。

其中(2)、(3)的取码与构件中是否有并型复合构件有关。若无时按正常顺序取码,否则根据首次出现并型复合件的位置,汉字的取码做如下调整:

g1为并型,则取该并构各分构件的首码元(最多可取三码,即首、次、末分构件)。

gi(1<i<n)为并型,则gi以上构件最多可顺序取二码,gi最多取该并构的首尾分构件的首码元各一码,若gi以上构件取足二码,gi只取首分构件的首码一码。

gn为并型,则gn以上构件最多可顺序取二码,然后从gn开始按正常顺序取码。

并型汉字(g1|g2|…gn)的编码

按顺序取1、(2)、(3)、末码元编码。不足四码加补码。其中(2)、(3)根据g1是否为并叠复合构件来确定:

g1的取码:如果g1为并叠复合型,则g1取三码:g1的首码、未取的并构构件的首码,

g1的尾码,否则g1最多取首尾两码。

g2及…gn的取码:如果n=2,则g2按正常顺序取码;如果n>2,则g2最多取首尾两码。

余部…gn按正常顺序取码。

⑤、补码:当汉字编码不足四码时,取汉字首码元的首笔,汉字末码元的末笔(键面成字码元则指汉字的首笔、末笔)结合汉字构型组成的区位码。单笔划的补码用61表示。

补码有两种:正码和反码。即组合笔划的方式是首末序,还是末首序。

并型、围型中的左下围补码用正码,其它构型均用反码。

⑥、汉字编码计算机输入:将根据①~⑤确定的汉字码元,依照得到码元的顺序,依次按下相应的计算机字母键,配合相关计算机程序,完成汉字的输入。

4.根据权利3的方法,汉字词汇的编码输入方法特征是:二字词——取每个汉字编码的前两码编码,三字词——取首字前二码编码、次字首码,末字前二码,四字词及多字词——取首字前二码、及其它汉字的首码编码,依次按下相应计算机按键输入。

5.根据权利3的方法,汉字多字词汇输入方法特征是:当输入键使用了选字键、且未选中汉字时,则系统状态由字输入状态转入多字词输入状态。

6.根据权利3的方法,汉字及辞书检索方法的特征是:

①、由根据权利3的方法得到得国标汉字编码,其中包含以汉字编码序值排列的汉字词汇。

②、按其代码(数字代码或字母代码)序值大小排列的码表。

③、记录码表的载体(如纸张、计算机)。

说明书
技术领域

所属技术领域

本发明属于拼形类计算机汉字编码输入方法,所涉及的技术,可广泛应用于中文信息处理及相关领域。

背景技术

汉字拼形类编码输入方法很多,常见的有:五笔字型、郑码、表形码等。这些编码或多或少都存在明显不足。没有解决GB2312-80字符集中的重码问题,也很难称得上易学易用,需要改进的空间巨大。

发明内容

一、形义码元表及形义码元中文键盘

本发明的形义码元是在对汉字拆分、拼合规律研究的基础上,通过对组成汉字的拼形符号的优选,根据拼形符号本身的形义待征、相容关系进行归并,依据拼形符号间的相互联系进行组合建立序列。共归并二十六组汉字码元(与二十六个英文字母对应),分为六个区,每区五个位(第六区可认为是二区的辅助区),与五个单笔划一起,组成本方法的汉字码元体系。

码元表的六个分区为:横数区、竖数区、撇皮区、点元区、折框区、辅区,依次用1、2、3、4、5、6编号。

码元表的五个位按其待征序1、2、3、4、5排列,其特征序一般表现为:码元的横向笔划数、码元的纵向笔划数、同类笔形数,双笔笔画代码组成的区位代码以及其它具有相同特征的序值。

本发明的码元代码因为采用了区码+位码形成的区位代码表示,并与现有计算机字母键盘字母布局相结合,使得与计算机字母键盘的映射关系简单直观,见下:

为了方便汉字计算机键盘输入,在设计生产计算机键盘的时候,将本发明的汉字形义码元,依据形义码元与计算机字母按键的映射关系直接刻印在计算机按键上形成专有的形义码元中文输入键盘,也可以将上述映射关系制成键贴式的产品,贴到计算机按键上形成形义码元中文输入键盘。

码元表的二十六组码元均有一个与其形义相关的区位代码,该区位代号码使得杂乱无章的码元呈现有序性,见下面形义码元表(简体),输入繁体字时需将本表简体码元转化为繁体码元。

简繁码元对照表:

形义码元表及形义中文键盘通用于简体,繁体汉字。输入简体和繁体汉字的差别仅在于将形义码元中简体码元转化为相应的繁体码元,并增加少量的繁体码元,上表列出了需转换成繁体的简体码元及增加的繁体码元。

码元表的区位方式具有显而易见的排列规律性,对标准计算机键盘有较强的适应性,利用形义码元的代码以及与英文字母之间的映射关系将形义码元做在计算机键盘键面 上就构成形义码元中文键盘,附图1是根据形义码元表设计的计算机汉字形义码元中文键盘按键表面的实例。为了方便使用也可制成键贴形式的产品,贴在键帽上。该键盘使形义码元有了确定的输入按键,通过按形义码元键即可完成汉字编码及计算机汉字输入。

此外形义码元代码为1-6的数字组成的区位代码,可直接映射到数字小键盘,通过输入形义码元的数字代码,达到输入码元的目地,用于手机等微型设备的数字键盘输入汉字。

二、形义码元汉字编码方法及汉字键盘输入

(一)、几个基本概念

1、笔划及笔顺:

笔划:笔划指构成楷书汉字字形的最小笔划单位,分为横、竖、撇、捺、折五种。依次用数字1、2、3、4、5表示,是本方法中特殊的码元,做码元使用时依次表示为11、22、33、44、55。此外,竖钩做码元使用时为了与竖区别用61表示。

笔顺:书写汉字时笔划的先后顺序。

2、码元

指本方法形义码元表中的笔划结构块和五种单笔划。是构成汉字或汉字构件的元素。

3、构件

指本方法中一个相对独立的码元,或多个码元通过粘连、交连组合到一起,形成的一个相对独立的结构块。也可称为汉字的部件。

4、构型

指本方法中汉字构件间的组合关系。汉字有四种基本构型:

①、单型:单个构件组成的汉字。用g表示

②、叠型:两个或两个以上构件叠合在一起形成的汉字,构件之间有水平空隙自然分隔。可用公式g1+g2或g1+g2+…gn表示。

③、并型:两个或两个以上构件并合在一起形成的汉字,构件之间有垂向空隙自然分隔。可用公式g1|g2或g1|g2|…gn表示。

④、围型:一个构件包围另一个或多个构件形成的汉字,其中围型构件与其包围的构件之间存在明显空隙。可公式用[g1]或[g1,g2,…gn]表示。

一般来讲,三个或三个以上构件组成的汉字多为上述基本构型的组合,组合的种类很多,这里统称为复合型。这时的构件g可以是复合构件,即本身即为上述基本构型的组合,并充当基本构型中构件作用的部分。

5、补码

指本方法中当汉字编码不足四码时,取汉字首码元的首笔,汉字末码元的末笔,或单个码元的首笔、末笔组成的码元区位代码。单笔划的补码用61表示。

补码有两种:正码和反码。即组合笔划的方式是首末序,还是末首序。

并型和围型中的左下围补码用正码,其它构型均用反码。

(二)、汉字的拆分规则

1、汉字拆分的两个层次

①、第一层次:汉字→构件;按照先上后下、先左后右、先外后内(下三围除外)的 拆分顺序拆分。

②、第二层次:构件→码元;

构件分解一般指“狭义构件”意义上构件的分解。应遵循下列原则,按优先级排列:

笔顺原则:笔画在先的先拆分,笔画在后的后拆分。另一个含义是码元首笔画的顺序就是拆解码元的顺序;

效率原则:以拆解的码元数最少为拆解原则;

自然原则:即松散、直观原则,越接近自然分解越好。松散的优先级依次是:散、离、围、正连、斜连、通交、正交、斜交。由于,这里讲的是狭义构件的拆分,固拆解中只须考虑下面“正连、斜连、通交、正交、斜交”五种交连关系。同一优先级别沿垂直方向上分解优先。

此外,在上述原则下,如仍存在拆分歧义,则按先者取大分解。如:“舍”拆分成“人、干、口”,而不是“人、一、古”

上述原则也可以概括为下面两句话:

能二不三,能疏不缠,顺序拆分,顺畅自然;

夹型披点,保效直观,超越笔顺,化繁为简。

拆分汉字应遵循先把汉字拆分成构件,然后再把构件拆分成码元的次序。由于汉字中构件之间的关系相对独立,已形成自然拆分,汉字的拆分实质上是构件的拆分。

2、构件拆分要点及示例

①能二不三:按照笔顺、一个构件如果能分解成两个码元,决不分解成三个,保证拆分的最大效益。示例:

正确:卓→早;      错误:卓→日、十;

正确:缶→、山;    错误:缶→、十、凵;

正确:空→穴、工;    错误:空→宀、八、工;

②能疏不缠:按照笔顺、一个构件如果能按照松散的码元关系拆分,决不按纠缠不清的码元关系拆分,保证拆分能直观、自然分割。示例:

正确:亏→一、丂;    错误:亏→二、ㄅ;

正确:尢→ナ、乚;    错误:尢→一、儿;

正确:生→丿、;    错误:生→、土;

③夹型披点,保效直观:对一些比较特殊的“夹型构件”、“披点构件”从直观及拆解方便考虑,可以不理会笔顺,以拆分效率、拆分直观为优先考量进行拆分,例如:

束→木口,柬→木四,秉→禾彐,夷→大弓,平→干丷。

成→戈勹,甫→月,求→,尤乚,载→十戈车。

夹型构件、披点构件的特征如下:

(三)、汉字的编码方法

1、汉字单字的编码

①、键名码元的编码

码元+补码+31(注:31为键名附加后缀码)

②、非键名码元(成字)的编码

码元+补码+61(注:61为成字码元附加后缀码)

③、非键名码元(不成字)的编码

码元+首次笔划组合码+45+45(注:45为非成字码元附加后缀码)

④、码元:“一、二、三、四、五、六、七、八、九、○”的编码

码元+31+41(注:31、41为数字码元附加后缀码)

⑤、单型汉字(g)的编码

两码元相连构成的字:按顺序取码元1、2、补码。

两码元相交构成的字:按顺序取码元1、2、补码、61。

其它:取码元1、2、3、末。不足四码加补码。

⑥、围型汉字([g1,g2,…gn])的编码

首先拆分围型构件,然后再拆分其它构件,按拆分出的码元顺序取1、2、3、末码元编码。不足四码加补码。

⑦、叠型汉字(g1+g2+…gn)的编码

按顺序取1、(2)、(3)、末码元编码。不足四码加补码。

其中(2)、(3)的取码与构件中是否有并型复合构件有关。若无时按正常顺序取码,否则根据首次出现并型复合件的位置,汉字的取码做如下调整:

g1为并型,则取该并构各分构件的首码元(最多可取三码,即首、次、末分构件)。

gi(1<i<n)为并型,则gi以上构件最多可顺序取二码,gi最多取该并构的首尾分构件的首码元各一码,若gi以上构件取足二码,gi只取首分构件的首码元一码。gn为并型,则gn以上构件最多可顺序取二码,然后从gn开始按正常顺序取码。

⑧、并型汉字(g1|g2|…gn)的编码

按顺序取1、(2)、(3)、末码元编码。不足四码加补码。其中(2)、(3)根据g1是否为并叠复合构件来确定:

g1的取码:如果g1为并叠复合型,则g1取三码:g1的首码、未取的并构分构件的首码,g1的尾码,否则g1最多取首尾两码;

g2及…gn的取码:如果n=2,则g2按正常顺序取码;如果n>2,则g2最多取首尾两码;余部…gn按正常顺序取码。

(四)、汉字词组的编码方法

汉字词组的编码基于汉字的编码。

①、双字词:字1前两码+字2前两码。

②、三字词:字1前两码+字2首码+字3前两码。

③、四字词:字1前两码+字2首码+字3首码+末字首码。

④:多字词:字1前两码+字2首码+……+字N首码。

(五)、汉字键盘输入

根据上述编码规则及形义码元表,将拆解汉字得到的码元映射到计算机字母键上,依照得到码元的顺序,依次按下计算机字母键,配合相关计算机程序,即可完成汉字的键盘输入。

此外,在实际汉字多字词组输入中,当输入键使用了选字键(1~9或;,。/)且未选中汉字时,则系统状态由字输入状态转入词输入状态。

三、汉字编码码本及检索

根据形义码元表、形义码元代码以及编码方法,对国标汉字进行编码,形成形义码元编码(数字代码或字母代码),按其代码序值进行排序后,就形成了形义码元汉字检索系统的码本,其中包含以汉字编码序值排列的词汇,可以用于辞书词条检索,大型文献库计算机检索等。

附图说明:

图1、形义码元中文键盘按键表面设计。

具体实施方式

形义码元编码法编码示例:

1、键名码元

身→身、补码、31    编码:543331(xet)

方→方、补码、31    编码:445431(oxt)

2、非键名码元

示→示、补码、61    编码:134161(dyn)

长→长、补码、61      编码:144361(sin)

3、单笔划及偏旁

丿→丿、61、45、45    编码:33614545(enpp)

衤→衤、45、45、45    编码:13454545(dppp)

4、单型字

下→一、卜、补码、    编码:111141(ggy)

夫→二、人、补码、61  编码:12244161(flyn)

发→、夂、丶、补码    编码:55454445(zpop)

书→乛、乛、丨、丶    编码:55552244(zzjo)

5、围型字

困→口、木、补码、    编码:544242(xuu)

虱→、丿、虫、补码    编码:55335145(zebp)

病→疒、一、冂、人    编码:34115124(wgbl)

麽→麽、丿、厶        编码:15332344(aeko)

6、叠型字

昌→日、日、补码      编码:535312(ccf)

童→立、日、土、补码  编码:55531214(zcfs)

慰→尸、寸、心、补码  编码:52155445(vaxp)

藉→艹、三、小、日    编码:22134353(jdic)

翁→八、厶、习、习    编码:23235555(kkzz)

叠→又、又、又、三    编码:62626213(mmmd)

攀→木、乂、木、亅    编码:42614261(unun)

窝→穴、口、冂、人    编码:14525124(svbl)

7、并型字

对→又、寸、补码      编码:621554(max)

乱→丿、古、乚、补码  编码:33415535(eyzq)

髌→冂、月、宀、八    编码:51356223(bqmk)

觎→人、月、刂、儿    编码:24352232(lqjr)

鄹→耳、又、水、阝    编码:21624332(hmir)

颡→又、又、木、贝编码:62624234(mmuw)

微→彳、山、几、乂编码:32233461(rkwn)

8、词组编码

创新→人、、立、木编码:24425542(luzu)

计算机→讠、十、竹、木、几编码:11 21 21 42 34(ghhuw)

改革开放→己、、廿、一、方编码:41 31 15 11 44(ytago)

本文发布于:2023-04-02 00:54:55,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/1/86005.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图