五笔字型输入法
五笔字型汉字编码是根据汉字字型结构和书写顺序实施的编码方案。由于五笔字型输入速度快、效率高、容易实现盲打(即不看键盘操作),学习起来并不困难,因此五笔字型输入方法目前在我国拥有较多的装机机种和用户,获得了广泛的应用。 汉字是一种象形文字,一个完整的汉字是由若干笔划复合连接交叉所形成的相对不变的结构所组成,而这些结构绝大多数都是由古汉字中的基本图形衍变而来,我们把这种图形称为“字根”,一般来说,字根是有形有义,在多数情况下还有称谓的基本构字单位,这些基本单位,经过拼形组合,就产生众多的汉字。字根是构成汉字的最重要的基本单位。字根是汉字的灵魂。 汉字可划分为三个层次:笔划、字根、单字。
五笔字形编码方案是根据人们习惯的书写顺序,以字根为基本单位来组字编码的方案。
2.汉字的字型结构
(一)五种笔划的定义
五笔字型输入方法的发明者把汉字的字型定义为五种笔划。所谓笔划是指书写汉字过程中,一次构成的一条可转向的连续的线段。应该指出的是所谓“书写”是必须按国家标准字字形书写,必须是楷体方式书写。
五笔笔划定义为:横、竖、撇、捺、折,相应编号分别为1、2、3、4、5。前面四种笔划的动笔方法极易掌握,折是指除左竖钩(并入竖划类)之外的所有带转折的笔划。
一些特殊笔划的规定:
1、“提笔”视为横。如“现、场、特、扛、冲”各字左部末均为“提”,视之为横。
2、点均视为捺类,如“学、永、寸、冗”各字中的点,包括“冖”的左点都视为捺类。
五种笔划组成字根时,笔划间的关系可分为以下四种情况:
1 单:即五笔划自身;
2 散:组成字根的笔划间有一定间距,如:三、八、氵等;
3 连:组成字根的笔划之间是相连接的,如厂、人、尸、弓等;
4 交:组成字根的笔划之间是相互交叉的,如十、力、又、车等。
当然还会有混合情况,一个字的各笔划之间,可以又连又交或散。和禾、雨等,掌握笔划的概念和笔划间的关系,对非基本字根的拆分和“识别码”的取法是非常有用的。
(二)汉字的基本字根
现代汉语中那些相对稳定不变有偏旁、部首的概念,在五笔字形输入编码方案中叫字根,五笔字形编码方案选取130个基本字根,它的依据是通过大量的统计数据和反复试用进行优选,这130个基本字根都使用频度相对高的字根。
五笔字型编码方案把优选出的130个左右的基本字根依其起笔划分为五大类,每一类按排在键盘的一小区内,每一区按“横、竖、撇、捺、折”顺序以1、2、3、4、5作为区号,每一小区占五个键位。每一小区的键位也是从1到5编了号的,叫位号,五区共占用25个键位,在键盘上,130个基本字根占用25键位,这样的安排给初学者指明在键盘上寻字根的大体目标,增加了它的易学性。表1给出了《五笔字型汉字编码方案》字根总表。 表1 五笔字型基本字根总表
区 | 位 | 代码 | 字母 | 键名 | 笔形 | 基本字根 | 高频字 |
包装箱制作1 横起笔类 | 1 2 3 4 5 | 11 12 13 14 15 | G F D S A | 王 土士 大犬 木 工 | 一 二 三丰 | 五戈 十干 寸雨 古石厂 丁西 匚七弋廾廿艹 | 一 地 在 要 工 |
2竖起笔类 | 1 2 3 4 5 | 21 22 23 24 25 | H J K L M | 目且 日曰 口 田 山 | 丨上卜 刂 川 | 上止上 早虫 甲囗四皿车力 由门贝几 | 上 是 中 国 同 |
3 撇起笔类 | 1 2 3 4 5 | 31 32 33 34 35 | T R E W Q | 禾 白 月 人亻 金钅 | 丿 彡 | 竹彳夂攵 | 和 的 有 人 我 |
4 捺起笔类 | 1 2 3 4 5 | 液态硅胶模具41 42 43 44 45 | Y U I O P | 言讠 立 水 水 之辶廴 | 冫丬 灬 | 广文方亠 六辛疒门 小 米 宀冖 | 主 产 不 为 这 |
5 折起笔类 | 1 2 3 4 5 | 51 52 53 54 55 | N B V C X | 已巳己 子 女 又厶 纟幺 | 乙 巛 | 已尸心忄小羽 凵了阝耳卩也 刀九彐臼 厶巴马 弓匕 | 民 了 发 以 经 |
| | | | | | | |
(三)字根之间的结构关系
基本字根可以拼命组成汉字,在组成汉字时,字根之间的位置关系很重要。字根可分为四类:
1、 可单独成为一个汉字的字根,这样的字根在130个基本字根占很大的比例。如:“五”、“雨”、“广”等。
2、 用多个字根组成一个汉字,而且字根之间保持一定的距离,相互之间不连不交。如:“湖”、“汉”、“学”等。
3、 五笔字型中字根相连的关系是指下面两种情况。
一是单笔划与某基本字根相连的情况。如:正、不、千、下、舌等字。
第二种情况是带点的结构,也认为点与某字根之间有相连的关系。如:勺、术、主、太等字。这些字中的点与另外的基本字根可能根本就不连在一起。
对于具有上面两种相连关系的汉字的定义是五笔字型编码作者人为规定。
4、多个字根交叉重叠构成汉字的情况。如:丰、果、夫、申等字。
五笔字型编码的作者把上述四种字根结构分别取名为单、散、连、交结构。
(四)汉字的字形结构
有些汉字,它们会有相同的字根,但字根之间的位置关系不一样,就构成了一个一个不同的汉字,如下面的两对汉字:邑、吧;叭、只。
为了区分这些汉字,使有相同字根的汉字不重码,如果把汉字的字型信息加入汉字编码中,这样就可以区分类似上述二组汉字的每对了。
五笔字型编码方案把字型信息定义为汉字的位置结构,并把所有汉字的位置结构关系分为三类:
表2给出了汉字三种字型结构关系的有关信息。
表2 汉字的三种字型结构关系表
字型代号 | 字型描述 | 字例 |
1 | 左右 | 极、叭、仿、位 |
2 | 上下 | 字、只、京、旦 |
3 | 其它杂合 | 回、困、旭、乘、正、勺 |
| | |
对表2作进一步的说明:
1、 凡是字根属于相连关系的汉字视为3型结构,如:“正”、“勺”为杂合型。
2、 凡键面字(本身是基本字根的汉字),有单独的编码方法,不必考虑其它型结构信息。
3、 对于属于散、交两类字根结构的关系,要区分字形结构。
(五)汉字拆分原则
人们用五笔字形输入法输入汉字信息时,首先要考虑的问题是,对于每一个汉字如何把它拆分成多个字根,再把字根编码输入到电脑教学机中。尽管设计者已对汉字集中所有汉字拆分好了,并进行了编码,但对每个用户来说,必须学会设计者的拆分方法,并掌握本身就是一个汉字的情况,以正确输入汉字信息。
对于单的情况即字根本身就是一个汉字的情况,因为无需拆分,这类字的输入方法有一套单独规定。
对于散的情况,由于字根结构之间相对独立,容易拆分。
拆分问题主要是要解决连、交的情况。拆分原理的四个要点是:取大优先,兼顾直观,能连不交,能散不连。
取大优先是指在拆分过程中,尽可能使拆分出来的字根最大,字根数目最少,下面的拆分实例是针对交这种情况来说的。
毛→丿二乙恒温酒窖 | 丰→三丨 | 夫→二人 |
无→二儿 | 果→日木 | 专→二乙丶 |
| | |
根据规定,“果”这如果拆分“旦”“小”是错误的。
对于相连关系,按照规则,对单笔与字根的情况可拆分成单笔与基本字根;对于带点结构的相连关系可猜成点和基本字根,下面对字根的相连结构给出的示例:
还应该指出的是,任何拆分过程中不能一个笔画割断分别用在两个字根之中,这种拆分法是绝对错误的,如“果”字其正确拆法是“日”“木”,若拆分成“田”“木”则是错误的。
3.五笔字型键盘设计
五笔字型编码选取了130个字根。作者把这130个字根安排在25个键位上。我们来学习一个五笔字型的键位安排。
(一) 字根的键盘布局
五笔字型编码的130个字根按起始笔划分为五类,每一类点用相连的一片键位,对每一类进行编号。这个编码称之为区号。而每区占五个键位,每区中每个键位也是一个称之为位号的编码。区号位在表1中反映出来,按表1可得如图1的五笔字形键盘字根总图。
从图1中看出,25个键位各自在左上角的一个字根都是汉字,我们把这个汉字称为键名汉字,按照区位号的排列,它们是:
1区:横起笔,王土大木工
2区:竖起笔,目日口田山
3区:撇起笔,禾白月人金
4区:捺起笔,言立水火之
5区:折起笔,已子女又纟(纟属二级字库)
以上述25个键名汉字为核心,把其余字根按键名汉字的某种关系安排在适当的位置上。
(二) 便于记忆的一些键位安排特点
五笔字型编码的字根在键面的安排有如下特点:
1、 字根首笔划代号与其所在区的区号一致。
2、 相当一部分字根的第二笔笔画代号与位号一致,如:王、戈、文、卩、勹等。
3部分字根的笔划数与位号一致,如字根:丶、冫、氵、灬分别在第1、2、3、4位,字根一、二、三分别在第1、2、3位。
部分字根与同一键位上的键名字根在形态上相近。
如:
键名字根 | 形态相近的字根 | 键名字根 | 形态相近的字根 |
王 | 河道生态护坡王 | 土 | 士、千 |
大 | 犬 | 田 | 甲、四 |
手 | 扌 | 山 | 由 |
月 | 用 | 水 | 氵、水、小 |
之 | 辶、廴 | 已 | 己、已、尸 |
| | | |
了解以上特点,有利于操作者记忆字根所在键位,以提高输入速度。
4.五笔字型单字输入编码规则
五笔字型汉字编码编程图见图2.
字型 末笔型 | 标本缸 左右型 | 上下型 | 杂合型 |
1 | acceptlanguage 2 | 3 |
横 | 1 | 11 | 12 | 13 |
竖 | 2 | 21 | 22 | 23 |
撇 | 3 | 31 | 32 | 33 |
捺 | 4 | 41 | 42 | 43 |
折 | 5 | 51 | 52 | 53 |
| | | | |
图2 五笔字型汉字编码流程图
(一) 键名汉字的编码规则
以下25个汉字称为键名汉字,安排在各键位的左上角。它们的编码规则是把所在的键位的英文字母写四次,输入时只需连续输入所在键位四次即可。
王土大木工,目日口田山,禾白月人金,言立水火之,已子女又纟。
例:“王”字编码为gggg,“土”字编码为ffff.
(二) 成字字根汉字的编码规则
在130个基本字根中,除25个键名字根外,还有大量的本身就是一个汉字的字根,这样的字根作为成字字根,它们的编码规则有别于键名汉字,编码规则为:键名码+首笔码+次笔码+末笔码;
当成字字根的笔划只有两笔时编码规则为:键名码+首笔码+空格;
键名码即成字字根所在键位的英文字母,首笔码、次笔码
末笔码的编码为该字的首笔码、次笔码、末笔码对应的第一键位,笔划与编码的对应关系如下:
有了上述规则,我们不难对下面的汉字写出其相应的编码:车lgng、西sghg、十fgh、手rtgh
应当指出,对于几个单笔划的成字字根,不适合运用上面的规则,而特别地规定它们的编码如下::
一 | 丨 | 丿 | 丶 | 乙 |
ggll | hhll | ttll | yyll | nnll |
| | | | |
(三) 键名汉字的编码规则
大量的汉字属于这类汉字,因此掌握这一类汉字的编码规则很重要。给出编码规则之前,先讨论字根码的概念。每个字根所在键位上的英文字母就是该字根的字根码。对于含有四个或四个以上字根的汉字,编码规则为:编码取汉字的第一、二、三和最末字根的字根码。其中第一、二、三和最末字根的定义完全遵守汉字的正确书写顺序,即先左后右,先上后下,先外后内的书写顺序。下面是一些汉字的编码实例。
汉字 | 分解 | 编码 |
癌 | 疒口口山 | ukkm |
汉字 | 分解 | 编码 |
磨 | 广木木石 | yssd |
| | |
对于字根数少于四个字根的汉字,其编码规则为:按书写顺序取其字根码,加上末笔划字型识别码,加上末笔识别码后仍不中四码者编码不变,输入时以空格键补之。