混淆矩阵的生成方法、装置、设备及存储介质与流程

阅读：评论：0

1.本发明涉及语音识别技术领域，尤其涉及一种混淆矩阵的生成方法、装置、设备及存储介质。

背景技术：

2.现如今随着人工智能的发展，语音识别的性能虽然有了很大提升，但是在实际应用中也会遇到一些识别错误，特别是一些易混淆的音，如l和n，s和sh，比如“年级”识别成“联机”，“九十”识别中“旧时”等。在某些特定的场景比如搜索音乐、给通讯录中的某个人打电话或者搜索某个地名等，可以上传用户个性化信息，比如用户的通讯录，将通讯录转换为发音单元集比如拼音集，然后把识别结果也转换为拼音，然后在目标拼音集中通过发音的相似程度进行匹配，最终获得混淆匹配的结果，以此提高识别性能。
3.进行混淆匹配关键是要有能够衡量不同发音相似程度的方法，现有的衡量发音相似度的方法一般是通过经验进行枚举。以汉语为例，比如b和p的发音比着b和y的发音更易混淆，
ā
n和
ā
ng比
ā
n和
ō
u更易混淆，因而一般地可以通过枚举的方式定义一些易混淆的发音。这种按照经验定义容易漏掉一些混淆音，并且不能很好的量化发音之间的相似程度。

技术实现要素：

4.本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明实施例提出一种混淆矩阵的生成方法、装置、设备及存储介质，以更好地量化发音之间的相似度。
5.一方面，本发明实施例提供一种混淆矩阵的生成方法，包括：将音频数据输入声学模型，得到每一帧的声学得分列表，所述声学得分列表中包括至少一个声学得分，所述声学得分表征发音单元的声学后验概率；获取所述音频数据的每一帧的中心元素，根据所述声学得分列表更新所述中心元素在混淆矩阵对应的行；所述混淆矩阵中每一行表征所述中心元素与所有的所述发音单元的混淆度；对所述混淆矩阵按行进行归一化，得到作为输出结果的所述混淆矩阵。
6.根据本发明的一些实施例，所述获取所述音频数据的每一帧的中心元素，包括：接收所述音频数据对应的对齐文件；从所述对齐文件中提取所述音频数据的每一帧的中心元素。
7.根据本发明的一些实施例，所述根据所述声学得分列表更新所述中心元素在混淆矩阵对应的行，包括：获取所述中心元素在混淆矩阵对应的行，作为第一行；确定所述声学得分列表中每个所述声学得分对应的所述发音单元，获取所述发音单元在所述混淆矩阵的所述第一行中对应的列作为第一列；根据所述声学得分对所述混淆矩阵的所述第一行的所述第一列的元素进行更新。
8.根据本发明的一些实施例，所述根据所述声学得分对所述混淆矩阵的所述第一行的所述第一列的元素进行更新，包括：所述混淆矩阵的所述第一行的所述第一列的元素累加所述声学得分。
9.根据本发明的一些实施例，所述对所述混淆矩阵按行进行归一化，得到作为输出结果的所述混淆矩阵，包括：对所述混淆矩阵的每一行进行求和，得到第一总和；将所述混淆矩阵中的每一行中的每一个元素，除以所述第一总和，得到归一化后的所述混淆矩阵作为所述输出结果。
10.根据本发明的一些实施例，所述方法包括：若归一化后的所述混淆矩阵中的任意元素小于第一阈值，则将所述任意元素配置为0。
11.另一方面，本发明实施例提供一种混淆矩阵的生成方法，包括：将音频数据输入声学模型，得到每一帧的声学得分列表，所述声学得分列表中包括至少一个声学得分，所述声学得分表征发音单元的声学后验概率；获取所述音频数据的每一帧的中心元素，根据所述声学得分列表更新所述中心元素在混淆矩阵对应的列；所述混淆矩阵中每一列表征所述中心元素与所有的所述发音单元的混淆度；对所述混淆矩阵按列进行归一化，得到作为输出结果的所述混淆矩阵。
12.根据本发明实施例的混淆矩阵的生成方法，至少具有如下有益效果：通过将声学语料输入至已训练好的声学模型，得到各个发音单元与中心元素的混淆程度的声学后验概率，对混淆矩阵进行更新和归一化来统计发音之间相似程度不仅能够统计所有的发音单元之间的混淆度，能够更好地量化发音之间的相似度，有效地提高混淆矩阵的生成效率和精确程度，防止错漏，而且还能适用于不同的语种，例如英语、粤语等。
13.另一方面，本发明实施例提供一种混淆矩阵的生成装置，包括：后验模块，用于将音频数据输入声学模型，得到每一帧的声学得分列表，所述声学得分列表中包括至少一个声学得分，所述声学得分表征发音单元的声学后验概率；第一更新模块，用于获取所述音频数据的每一帧的中心元素，根据所述声学得分列表更新所述中心元素在混淆矩阵对应的行；所述混淆矩阵中每一行表征所述中心元素与所有的所述发音单元的混淆度；第一归一化模块，用于对所述混淆矩阵按行进行归一化，得到作为输出结果的所述混淆矩阵。
14.另一方面，本发明实施例提供一种混淆矩阵的生成装置，包括：后验模块，用于将音频数据输入声学模型，得到每一帧的声学得分列表，所述声学得分列表中包括至少一个声学得分，所述声学得分表征发音单元的声学后验概率；第二更新模块，用于获取所述音频数据的每一帧的中心元素，根据所述声学得分列表更新所述中心元素在混淆矩阵对应的列；所述混淆矩阵中每一列表征所述中心元素与所有的所述发音单元的混淆度；第二归一化模块，用于对所述混淆矩阵按列进行归一化，得到作为输出结果的所述混淆矩阵。
15.根据本发明实施例的混淆矩阵的生成装置，至少具有如下有益效果：通过将声学语料输入至已训练好的声学模型，得到各个发音单元与中心元素的混淆程度的声学后验概率，对混淆矩阵进行更新和归一化来统计发音之间相似程度不仅能够统计所有的发音单元之间的混淆度，能够更好地量化发音之间的相似度，有效地提高混淆矩阵的生成效率和精确程度，防止错漏，而且还能适用于不同的语种，例如英语、粤语等。
16.另一方面，本发明实施例提供一种计算机设备，包括：至少一个处理器；至少一个存储器，用于存储至少一个程序；当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述的混淆矩阵的生成方法。
17.另一方面，本一种计算机可读存储介质，所述存储介质内存储有程序指令，所述程序指令被处理器执行时实现上述的混淆矩阵的生成方法。
18.本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
19.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：
20.图1是本发明实施例提供的一种混淆矩阵的生成方法。
21.图2是本发明实施例提供的又一混淆矩阵的生成方法。
22.图3是本发明实施例的混淆矩阵的生成的流程示意图。
23.图4是本发明实施例的混淆矩阵的更新示例图像。
24.图5是本发明实施例提供的一种混淆矩阵的生成装置。
25.图6是本发明实施例提供的又一混淆矩阵的生成装置。
具体实施方式
26.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特有的意义。因此，“模块”、“部件”或“单元”可以混合地使用。“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。在本后续的描述中，对方法步骤的连续标号是为了方便审查和理解，结合本发明的整体技术方案以及各个步骤之间的逻辑关系，调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。
27.参照图1，本实施例公开了一种混淆矩阵的生成方法，包括但不限于以下步骤s100至s300。
28.步骤s100，将音频数据输入声学模型，得到每一帧的声学得分列表。
29.该声学得分列表中包括至少一个声学得分。每一个声学得分对应于一个发音单元，用于表征该发音单元的声学后验概率。
30.步骤s200，获取音频数据的每一帧的中心元素，根据声学得分列表更新该中心元素在混淆矩阵对应的行。
31.本实施例中，混淆矩阵的每一行都对应于一个中心元素，表征该中心元素与所有的发音单元的混淆度；即，每一行的每一列都表示该中心元素与某一个发音单元的混淆度。
32.具体地，首先，接收音频数据对应的对齐文件，从对齐文件中提取音频数据的每一帧的中心元素。
33.然后，获取该中心元素在混淆矩阵对应的行作为第一行。遍历该帧的声学得分列表，确定声学得分列表中每个声学得分对应的发音单元，获取该发音单元在混淆矩阵的第一行中对应的列作为第一列。
34.最后，根据声学得分对混淆矩阵的第一行的第一列的元素进行更新。将混淆矩阵
的第一行的第一列的元素对应的值累加该声学得分。
35.步骤s300，对该混淆矩阵按行进行归一化，得到作为输出结果的混淆矩阵。
36.具体地，对混淆矩阵的每一行进行求和，得到第一总和；将混淆矩阵中的每一行中的每一个元素，除以第一总和，得到归一化后的混淆矩阵作为输出结果。
37.本发明的一些实施例中，还包括：遍历归一化后的混淆矩阵中的元素，若归一化后的混淆矩阵中的任意元素小于第一阈值，则将该任意元素配置为0。
38.上述实施例中，混淆矩阵按行来存储某个中心元素与各个发音单元之间的混淆程度，但混淆矩阵也可以按列来存储某个中心元素与各个发音单元之间的混淆程度，具体地如图2所示。
39.参照图2，本实施例还公开了一种混淆矩阵的生成方法，包括但不限于以下步骤s100、s200a至s300a。
40.步骤s100，将音频数据输入声学模型，得到每一帧的声学得分列表。
41.该声学得分列表中包括至少一个声学得分。每一个声学得分对应于一个发音单元，用于表征该发音单元的声学后验概率。本步骤与图1所示的方法的步骤相同。
42.步骤s200a，获取音频数据的每一帧的中心元素，根据声学得分列表更新该中心元素在混淆矩阵对应的列。
43.本实施例中，混淆矩阵的每一列都对应于一个中心元素，表征该中心元素与所有的发音单元的混淆度；即，每一列的每一行都表示该中心元素与某一个发音单元的混淆度。
44.具体地，首先，接收音频数据对应的对齐文件，从对齐文件中提取音频数据的每一帧的中心元素。
45.然后，获取该中心元素在混淆矩阵对应的列作为第二列。遍历该帧的声学得分列表，确定声学得分列表中每个声学得分对应的发音单元，获取该发音单元在混淆矩阵的第二列中对应的列作为第二行。
46.最后，根据声学得分对混淆矩阵的第二列的第一行的元素进行更新。将混淆矩阵的第二列的第一行的元素对应的值累加该声学得分。
47.步骤s300a，对该混淆矩阵按列进行归一化，得到作为输出结果的混淆矩阵。
48.具体地，对混淆矩阵的每一列进行求和，得到第二总和；将混淆矩阵中的每一列中的每一个元素，除以第二总和，得到归一化后的混淆矩阵作为输出结果。
49.下面将以汉语为例，且混淆矩阵的每一行都对应于一个中心元素，来详细说明本发明实施例提供的方法。
50.图3示出了混淆矩阵的生成的流程示意图。混淆矩阵的生成需要使用训练好的声学模型，以及大批量的音频数据和音频数据对应的对齐文件。每条音数据频都对应有对齐文件，对齐文件指的是该音频每帧和哪个中心元素进行对齐。该对齐文件可以由现有的强制对齐技术和声学模型产生。每条输入的音频数据，先进行特征提取，所用特征即声学模型所需特征。然后经过声学模型得到声学后验概率，利用声学后验概率和对齐文件即可更新混淆矩阵。最终的混淆矩阵就是在大量音频的迭代中产生的。
51.图4是混淆矩阵更新的示例图。此处，所例举声学模型的发音单元为bi-phone，单词的发声不仅跟发音单元本身有关，还跟发音单元所处的上下文有关，只考虑前一音影响的即为bi-phone。但本发明实施例的方法并不仅限于此，也可以使用其它的声学模型。图4
中输入音频的内容为“今天”，一共10帧，每一帧都有对齐结果，该音频会涉及和四个发音单元(j
ī
n t
ī
an)相关的混淆度的计算。图4中的韵母后的数字表示声调，例如，in1表示
ī
n。对齐文件中的这个四个发音单元被称为中心元素，其中包含两个声母、两个韵母。由于汉语中每个汉字形式一般为声母-韵母，不会有声母-声母或者韵母-韵母的形式，所以一般是声母和声母混淆，韵母和韵母混淆。比如今天和新鲜(x
ī
n x
ī
an)容易混淆即声母j和声母x容易混淆，相似度较高；今天和晶添(j
ī
ng t
ī
an)易混淆，即韵母
ī
n和
ī
ng容易混淆。
52.每个中心元素和其他发音单元的混淆度计算如下：
53.输入音频进行特征提取，输入到声学模型中获取每一帧的声学得分列表am_scores[n]，其中n为发音单元的总个数。每一个声学得分表示该帧中某个发音单元的声学后验概率。
[0054]
在图4中，音频“今天”有10帧后验，每一帧都有对应的强制对齐结果，即该帧应该与哪个音素进行对齐，图4中每个对齐音素被为bi-phone,“对齐”行中横杠后面的元素为中心元素，横杠前面为中心元素的上下文音素。图4中的“后验”行对应的即为声学得分。
[0055]
混淆矩阵confusion_matrix[n][n]是根据每帧的声学得分列表进行更新的,混淆矩阵的更新方法如下：
[0056]
confusion_matrix[c][i]+＝am_score[i]
[0057]
其中，c表征中心元素，i表征某个发音单元，范围为0到n-1。
[0058]
即每一帧时，仅根据中心元素在混淆矩阵中对应的元素行。
[0059]
统计完所有的音频后，得到了一个nxn的混淆矩阵，矩阵的每一行为一个中心元素与所有发音单元的混淆度。每行中，发音相近、容易混淆的发音单元在矩阵中的分数是接近的。分数值可以参考图4中第一帧的后验：sil-j的打分和sil-x的相差是比较小的，说明j和x是比较容易混淆的。
[0060]
然后，对生成的混淆矩阵每一行按照如下公式进行归一化：
[0061]
confuse[c][i]/＝sum(confuse[c])
[0062]
其中，sum(confuse[c])表示中心元素c所在行的所有元素之和。
[0063]
本发明实施例的混淆矩阵的生成方法，能够通过将声学语料输入至已训练好的声学模型，得到各个发音单元与中心元素的混淆程度的声学后验概率，对混淆矩阵进行更新和归一化，不仅能够统计所有的发音单元之间的混淆度，能够更好地量化发音之间的相似度，有效地提高混淆矩阵的生成效率和精确程度，防止错漏，而且还能适用于不同的语种，例如英语、粤语等。
[0064]
参照图5，本实施例公开了一种混淆矩阵的生成装置，包括但不限于：后验模块500、第一更新模块610和第一归一化模块710。
[0065]
后验模块500，用于将音频数据输入声学模型，得到每一帧的声学得分列表。该声学得分列表中包括至少一个声学得分，该声学得分表征发音单元的声学后验概率。
[0066]
第一更新模块610，用于获取该音频数据的每一帧的中心元素，根据该帧对应声学得分列表更新该中心元素在混淆矩阵对应的行。该混淆矩阵中每一行表征中心元素与所有的发音单元的混淆度。
[0067]
第一归一化模块710，用于对该混淆矩阵按行进行归一化，得到作为输出结果的混淆矩阵。
[0068]
参照图6，本实施例公开了一种混淆矩阵的生成装置，包括但不限于：后验模块500、第二更新模块620和第一归二化模块720。
[0069]
后验模块500，用于将音频数据输入声学模型，得到每一帧的声学得分列表。该声学得分列表中包括至少一个声学得分，该声学得分表征发音单元的声学后验概率。
[0070]
第一更新模块620，用于获取该音频数据的每一帧的中心元素，根据该帧对应声学得分列表更新该中心元素在混淆矩阵对应的列。该混淆矩阵中每一列表征中心元素与所有的发音单元的混淆度。
[0071]
第一归一化模块720，用于对该混淆矩阵按列进行归一化，得到作为输出结果的混淆矩阵。
[0072]
显然，图5所示的生成装置与图6所示的生成装置中的不同点仅在于混淆矩阵的存储方式不同，与图1所示的混淆矩阵的生成方法基于相同发明构思，因此，该混淆矩阵的生成装置在上述模块的协同作用下，能够通过将声学语料输入至已训练好的声学模型，得到各个发音单元与中心元素的混淆程度的声学后验概率，对混淆矩阵进行更新和归一化，不仅能够统计所有的发音单元之间的混淆度，能够更好地量化发音之间的相似度，有效地提高混淆矩阵的生成效率和精确程度，防止错漏，而且还能适用于不同的语种，例如英语、粤语等。
[0073]
本实施例提供一种计算机设备，包括：至少一个处理器；至少一个存储器，用于存储至少一个程序；当至少一个程序被至少一个处理器执行，使得至少一个处理器实现上述的混淆矩阵的生成方法。其中，处理器还可以称为cpu(central processing unit，中央处理单元)。处理器可能是一种集成电路芯片，具有信号的处理能力。处理器还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器，或者，通用处理器还可以是任何常规的处理器等。存储器可包括各种组件(例如，机器可读介质)，包括但不限于随机存取存储器组件、只读组件及其任意组合。存储器还可包括：(例如，存储于一个或多个机器可读介质的)指令(例如，软件)；该指令实现本发明上述的混淆矩阵的生成方法。希望理解的是，为了避免赘述，本实施例未涉及的内容可参照本实施例未涉及的内容可参照上述的混淆矩阵的生成方法。
[0074]
本实施例提供计算机可读存储介质，该存储介质内存储有程序指令，程序指令被处理器执行时实现能够实现上述的混淆矩阵的生成方法。希望理解的是，为了避免赘述，本实施例未涉及的内容可参照上述的混淆矩阵的生成方法。
[0075]
本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
[0076]
在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质(简称存储介质)上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机可读介质包括在用于存储信息(诸如计算机可读指令、数据
结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。
[0077]
以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

技术特征：

1.一种混淆矩阵的生成方法，其特征在于，包括：将音频数据输入声学模型，得到每一帧的声学得分列表，所述声学得分列表中包括至少一个声学得分，所述声学得分表征发音单元的声学后验概率；获取所述音频数据的每一帧的中心元素，根据所述声学得分列表更新所述中心元素在混淆矩阵对应的行；所述混淆矩阵中每一行表征所述中心元素与所有的所述发音单元的混淆度；对所述混淆矩阵按行进行归一化，得到作为输出结果的所述混淆矩阵。2.根据权利要求1所述的混淆矩阵的生成方法，其特征在于，所述获取所述音频数据的每一帧的中心元素，包括：接收所述音频数据对应的对齐文件；从所述对齐文件中提取所述音频数据的每一帧的中心元素。3.根据权利要求1所述的混淆矩阵的生成方法，其特征在于，所述根据所述声学得分列表更新所述中心元素在混淆矩阵对应的行，包括：获取所述中心元素在混淆矩阵对应的行，作为第一行；确定所述声学得分列表中每个所述声学得分对应的所述发音单元，获取所述发音单元在所述混淆矩阵的所述第一行中对应的列作为第一列；根据所述声学得分对所述混淆矩阵的所述第一行的所述第一列的元素进行更新。4.根据权利要求3所述的混淆矩阵的生成方法，其特征在于，所述根据所述声学得分对所述混淆矩阵的所述第一行的所述第一列的元素进行更新，包括：所述混淆矩阵的所述第一行的所述第一列的元素累加所述声学得分。5.根据权利要求1所述的混淆矩阵的生成方法，其特征在于，所述对所述混淆矩阵按行进行归一化，得到作为输出结果的所述混淆矩阵，包括：对所述混淆矩阵的每一行进行求和，得到第一总和；将所述混淆矩阵中的每一行中的每一个元素，除以所述第一总和，得到归一化后的所述混淆矩阵作为所述输出结果。6.一种混淆矩阵的生成方法，其特征在于，包括：将音频数据输入声学模型，得到每一帧的声学得分列表，所述声学得分列表中包括至少一个声学得分，所述声学得分表征发音单元的声学后验概率；获取所述音频数据的每一帧的中心元素，根据所述声学得分列表更新所述中心元素在混淆矩阵对应的列；所述混淆矩阵中每一列表征所述中心元素与所有的所述发音单元的混淆度；对所述混淆矩阵按列进行归一化，得到作为输出结果的所述混淆矩阵。7.一种混淆矩阵的生成装置，其特征在于，包括：后验模块，用于将音频数据输入声学模型，得到每一帧的声学得分列表，所述声学得分列表中包括至少一个声学得分，所述声学得分表征发音单元的声学后验概率；第一更新模块，用于获取所述音频数据的每一帧的中心元素，根据所述声学得分列表更新所述中心元素在混淆矩阵对应的行；所述混淆矩阵中每一行表征所述中心元素与所有的所述发音单元的混淆度；第一归一化模块，用于对所述混淆矩阵按行进行归一化，得到作为输出结果的所述混
淆矩阵。8.一种混淆矩阵的生成装置，其特征在于，包括：后验模块，用于将音频数据输入声学模型，得到每一帧的声学得分列表，所述声学得分列表中包括至少一个声学得分，所述声学得分表征发音单元的声学后验概率；第二更新模块，用于获取所述音频数据的每一帧的中心元素，根据所述声学得分列表更新所述中心元素在混淆矩阵对应的列；所述混淆矩阵中每一列表征所述中心元素与所有的所述发音单元的混淆度；第二归一化模块，用于对所述混淆矩阵按列进行归一化，得到作为输出结果的所述混淆矩阵。9.一种计算机设备，其特征在于，包括：至少一个处理器；至少一个存储器，用于存储至少一个程序；当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1至6中任一项所述的混淆矩阵的生成方法。10.一种计算机可读存储介质，所述存储介质内存储有程序指令，所述程序指令被处理器执行时实现如权利要求1至6中任意一项所述的混淆矩阵的生成方法。

技术总结

本发明提供一种混淆矩阵的生成方法、装置、设备及存储介质，该方法包括：将音频数据输入声学模型，得到每一帧的声学得分列表声学得分列表中包括至少一个声学得分，声学得分表征发音单元的声学后验概率；获取音频数据的每一帧的中心元素，根据声学得分列表更新中心元素在混淆矩阵对应的行；混淆矩阵中每一行表征中心元素与所有的发音单元的混淆度；混淆矩阵按行进行归一化，得到作为输出结果的混淆矩阵。本发明能够更好地量化发音之间的相似度，有效地提高混淆矩阵的生成效率和精确程度，防止错漏。漏。漏。