一种基于共振峰的语音训练方法及系统

阅读：评论：0

1.本技术涉及电子教育领域，尤其是一种基于共振峰的语音训练方法及系统。

背景技术：

2.英语是世界主流语言之一。与中文这种表意文字不同，英语是一种拼音文字。在英语学习过程中，听和读起到至关重要的作用。
3.人的语音是由声带的振动和口腔，鼻腔等共鸣腔的谐振产生的，因此语音可以分解为基频和多个共振峰。共振峰是语音的最直接来源，也是语音感知过程中最关键的成分。此外，共振峰是能够区分元音的关键特征。在发音过程中，口腔、舌头等发音器官会形成多个共振腔，一般单个元音有3-5个共振峰，通常是通过前两个共振峰就能区分不同元音。第一共振峰(f1)频率最低，反映发音的开放性，发音越开放f1值越大；第二共振峰(f2)反映发音位置的前后，越靠前f2值越大。研究表明，英语水平较高的学生，元音的发音和感知都更为准确。此外，英语训练者更容易掌握与汉语元音相近的英语元音。共振峰成分是分辨部分元音的关键成分，因此训练提高共振峰的辨识敏感性和辨别能力，有助于提高训练者的英语领域的语言感知能力和自然背景噪声下的英语语音识别能力，进一步提高英语语音能力。
4.相关技术和方法大多专注于重复诵读，主要注重语义理解和语法运用方面，忽略了听觉语音和口语表达方面的训练，从而导致英语学习的不平衡发展。这种方法未能有效结合英语的特点以及训练者的语音认知加工过程，导致学习过程枯燥乏味，训练效果较差。
5.因此，相关技术存在的上述技术问题亟待解决。

技术实现要素：

6.本技术旨在解决相关技术中的技术问题之一。为此，本技术实施例提供一种基于共振峰的语音训练方法及系统，能够有效结合英语的特点以及训练者的语音认知进行语音训练。
7.根据本技术实施例一方面，提供一种基于共振峰的语音训练方法，所述方法包括：
8.通过分离基频和共振峰信息强化训练者的听觉辨别技巧；
9.通过增强共振峰能量强化训练者的元音辨别能力；
10.通过对比标准语音的共振峰分布纠正训练者的发音。
11.在其中一个实施例中，所述通过分离基频和共振峰信息强化训练者的听觉辨别技巧，包括：
12.分离元音声音的基频和共振峰信息；
13.将元音声音的基频和共振峰信息进行重组得到语音刺激，通过所述语音刺激锻炼训练者的听觉技巧和能力。
14.在其中一个实施例中，通过所述语音刺激锻炼训练者的听觉技巧和能力，包括：
15.根据与汉语元音的相似度对所述语音刺激进行排序；
16.按照排序后的所述语音刺激锻炼训练者的听觉技巧和能力。
17.在其中一个实施例中，所述通过增强共振峰能量强化训练者的元音辨别能力，包括：
18.将标准人声元音或辅音的读音材料，通过增强元音的共振峰的能量，进行语音辨别训练；
19.提高元音的语音表征。
20.在其中一个实施例中，增强元音的共振峰的能量，包括：
21.根据训练过程中的训练效果自适应调节元音的共振峰的能量增强幅度。
22.在其中一个实施例中，根据训练过程中的训练效果自适应调节元音的共振峰的能量增强幅度，包括：
23.当训练者的辨别准确率低于第一阈值时，则降低元音的共振峰的能量增强幅度；当语音辨别准确率高于第二阈值时，则增加元音的共振峰的能量增强幅度。
24.在其中一个实施例中，所述通过对比标准语音的共振峰分布纠正训练者的发音，包括：
25.录制训练者的发音并分析所述训练者的发音的语音频谱信息；
26.将所述训练者的发音的语音频谱信息与标准语音频谱图进行共振峰分布比较，计算共振峰的相似度；
27.根据所述共振峰的相似度不同进行对应的训练。
28.根据本技术实施例一方面，提供一种基于共振峰的语音训练系统，用于实现前面实施例所述的一种基于共振峰的语音训练方法，所述系统包括测试部分和训练部分，所述训练部分包括听觉能力训练模块、元音或辅音辨别训练模块、语音评价反馈训练模块。
29.在其中一个实施例中，所述听觉能力训练模块提供第一共振峰训练和第二共振峰训练，所述第一共振峰训练由基音与第一共振峰组合而成，所述第二共振峰训练由基音与第二共振峰组合而成。
30.在其中一个实施例中，所述语音评价反馈训练模块获得训练者的成绩，根据训练者的成绩自适应调节元音的共振峰的能量增强幅度。
31.本技术实施例提供的一种基于共振峰的语音训练方法及系统的有益效果为：本技术通过分离基频和共振峰信息强化训练者的听觉辨别技巧；通过增强共振峰能量强化训练者的元音辨别能力；通过对比标准语音的共振峰分布纠正训练者的发音，能够改善训练者的元音频率感知能力和发音准确性，提高对英语语音的辨别能力和拼读准确性，最终提高训练者的英语听力能力和口语表达能力。
32.本技术的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到。
附图说明
33.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
34.图1为本技术实施例提供的一种基于共振峰的语音训练方法的流程图；
35.图2为本技术实施例提供的一种基于共振峰的语音训练系统的示意图；
36.图3为本技术实施例提供的一种基于共振峰的语音训练系统的硬件组成示意图。
具体实施方式
37.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
38.本技术的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
39.在本文中提及“实施例”意味着，结合实施例描述的特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
40.英语是世界主流语言之一。与中文这种表意文字不同，英语是一种拼音文字。在英语学习过程中，听和读起到至关重要的作用。
41.人的语音是由声带的振动和口腔，鼻腔等共鸣腔的谐振产生的，因此语音可以分解为基频和多个共振峰。共振峰是语音的最直接来源，也是语音感知过程中最关键的成分。此外，共振峰是能够区分元音的关键特征。在发音过程中，口腔、舌头等发音器官会形成多个共振腔，一般单个元音有3-5个共振峰，通常是通过前两个共振峰就能区分不同元音。第一共振峰(f1)频率最低，反映发音的开放性，发音越开放f1值越大；第二共振峰(f2)反映发音位置的前后，越靠前f2值越大。研究表明，英语水平较高的学生，元音的发音和感知都更为准确。此外，英语训练者更容易掌握与汉语元音相近的英语元音。共振峰成分是分辨部分元音的关键成分，因此训练提高共振峰的辨识敏感性和辨别能力，有助于提高训练者的英语领域的语言感知能力和自然背景噪声下的英语语音识别能力，进一步提高英语语音能力。
42.相关技术和方法大多专注于重复诵读，主要注重语义理解和语法运用方面，忽略了听觉语音和口语表达方面的训练，从而导致英语学习的不平衡发展。这种方法未能有效结合英语的特点以及训练者的语音认知加工过程，导致学习过程枯燥乏味，训练效果较差。
43.为了解决上述问题，本技术提出了一种基于共振峰的语音训练方法及系统，本技术主要通过听觉技巧、元音辨别、发音纠正等三个层次进行训练训练者的语音感知和发音能力。训练方法包括三个系列的训练方法，分别是：(1)通过分离基频和共振峰等信息强化听觉辨别技巧，(2)通过增强特定共振峰能量强化元音辨别能力，以及(3)通过对比标准语音的共振峰分布纠正发音。
44.图1为本技术实施例提供的一种基于共振峰的语音训练方法的流程图，如图1所示，本技术提出的一种基于共振峰的语音训练方法包括：
45.s101、通过分离基频和共振峰信息强化训练者的听觉辨别技巧。
46.在步骤s101中，通过分离基频和共振峰信息强化训练者的听觉辨别技巧包括：分离元音声音的基频和共振峰信息；将元音声音的基频和共振峰信息进行重组得到语音刺激，通过所述语音刺激锻炼训练者的听觉技巧和能力。具体地，通过所述语音刺激锻炼训练者的听觉技巧和能力，包括：根据与汉语元音的相似度对所述语音刺激进行排序；按照排序后的所述语音刺激锻炼训练者的听觉技巧和能力。
47.示例性地，本训练方法的训练过程采用循序渐进的形式，根据与汉语元音的相似度对训练的英语语音刺激从高到低进行排序，从简单到困难，依次进行训练，以保证训练效果。首先训练与汉语元音相近的读音，难度较低，并初步培养训练者听觉辨别技巧和熟悉训练过程，降低训练者的排斥心理和畏难情绪，提高训练效率。随着训练的进行，前期训练提高的听觉辨别技巧和能力，并加快后续英语语音训练进度，科学合理的整体强化听觉辨识能力。
48.s102、通过增强共振峰能量强化训练者的元音辨别能力。
49.在步骤s102中，通过增强共振峰能量强化训练者的元音辨别能力，包括：将标准人声元音或辅音的读音材料，通过增强元音的共振峰的能量，进行语音辨别训练；提高元音的语音表征。具体地，增强元音的共振峰的能量包括：根据训练过程中的训练效果自适应调节元音的共振峰的能量增强幅度。
50.需要说明的是，本实施例中根据训练过程中的训练效果自适应调节元音的共振峰的能量增强幅度，具体可以包括：当训练者的辨别准确率低于第一阈值时，则降低元音的共振峰的能量增强幅度；当语音辨别准确率高于第二阈值时，则增加元音的共振峰的能量增强幅度。
51.在训练过程中，训练准确率和共振峰增强幅度都会影响训练效果；在达到一定阈值前，共振峰增强幅度越高，则训练效果越好；而训练准确率较低时，则训练难度较大，还会打击训练者的自信和训练积极性，训练效果差。而训练准确率过高时，则训练难度较低，训练收获少，训练效果一般。因此，为达到最佳训练效果，特定共振峰能量增强幅度将根据训练过程中的训练效果进行自适应调节。当语音辨别准确率低于一定阈值时，则降低共振峰增幅强度；当语音辨别准确率高于一定阈值时，则增加共振峰增幅强度；使得语音辨别准确率与增强幅度乘积达到最大，训练效果达到最佳。
52.s103、通过对比标准语音的共振峰分布纠正训练者的发音。
53.在步骤s103中，通过对比标准语音的共振峰分布纠正训练者的发音，包括：录制训练者的发音并分析所述训练者的发音的语音频谱信息；将所述训练者的发音的语音频谱信息与标准语音频谱图进行共振峰分布比较，计算共振峰的相似度；根据所述共振峰的相似度不同进行对应的训练。
54.示例性地，根据所述共振峰的相似度不同进行对应的训练可以是对相似度低的共振峰提供针对性训练方法，对不科学、不准确的发音方法、技巧进行相应纠正，提高发音技巧和增强语音能力。
55.本技术结合英语元音的发音特点以及人的认知发展规律，设计了一种基于共振峰
的英语语音强化的训练方法。本技术通过改善训练者的元音频率感知能力和发音准确性，提高对英语语音的辨别能力和拼读准确性，最终提高英语的听力和口语表达能力。
56.图2为本技术实施例提供的一种基于共振峰的语音训练系统的示意图，如图2所示，本技术还提供一种基于共振峰的语音训练系统，用于实现前面实施例所述的一种基于共振峰的语音训练方法，所述系统包括测试部分和训练部分，所述训练部分包括听觉能力训练模块、元音或辅音辨别训练模块、语音评价反馈训练模块。
57.听觉能力训练模块提供第一共振峰训练和第二共振峰训练，所述第一共振峰训练由基音与第一共振峰组合而成，所述第二共振峰训练由基音与第二共振峰组合而成。在听觉能力训练模块中，正常的英语元音/辅音会分解为基音和几个共振峰的成分。训练者将会选择第一共振峰/第二共振峰的一个进行训练。如选择第一共振峰，则训练语音将由基音与第一共振峰组合而成；如选择第二共振峰，则训练语音将由基音与第二共振峰组合而成，依次类推。训练难度分为三个层次。第一个层次中，播放器将会播放三段合成语音，其中两个为同一个语音的基音与共振峰的合成；剩余一个为目标语音，为另一个语音的基音与共振峰的合成。训练者需要判断选择出与其他语音不同的目标语音。第二个层次中，播放器将会播放四段合成语音，其中一个目标语音，为训练语音的基音与共振峰的组合而成；剩余三个为易混淆语音，为另一个语音的基音与共振峰的合成。训练者需要判断哪一个语音与其他语音不同。第三个层次中，播放器将会播放一段提示语音，接着播放三段不同语音，其中一个为目标语音，与提示语音相同。训练者需要判断指出哪一个语音与提示语音相同。训练者回答结束后，系统将显示正确率和反应时。这是两个衡量训练者听觉能力的主要指标。
58.元音或辅音辨别训练模块将增强语音中训练者薄弱的共振峰，进行辨别训练。上一模块中，系统将获得三个共振峰的听觉能力的成绩。系统将根据声音技巧成绩加强对应元音/辅音的共振峰强度。该模块提供的训练方法共两种；一种为系统将播放一个增强后的元音/辅音单词，训练者将从3～5待选词中选择匹配的词语。另一种为系统将播放3～5增强后的单词，除目标词外，其他单词具有相同的元音/辅音。训练者需要辨别指出具有不同元音/辅音的目标词，并进一步在多个元音/辅音中选择目标词所具有的元音/辅音。
59.语音评价反馈训练模块获得训练者的成绩，根据训练者的成绩自适应调节元音的共振峰的能量增强幅度，具体包括记录下训练者的语音，并将其转化为频谱图，然后对训练者发音的频谱图与标准语音频谱图进行基于基频和多个共振峰的特征提取，并采用欧式距离计算训练者发音与标准语音的相似度。系统根据对应的相似度提供更为科学的发音指导，对于不标准的发音的舌位、唇形等进行纠正。
60.图3为本技术实施例提供的一种基于共振峰的语音训练系统的硬件组成示意图，如图3所示，语音训练系统用于英语训练时，硬件组成包括显示屏幕、录音器和扬声器，显示屏幕能够显示训练内容(例如字母、正确率等)，录音器用于收录训练者朗读的声音，扬声器用于发出读音以及进行声音提示等。需要说明，显示屏幕、录音器和扬声器为组成本实施例的基于共振峰的语音训练系统的基础硬件，此外可能还需要其他硬件设备，例如计算机、触控笔等。
61.在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本技术的流程图中所呈现和描述
的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
62.此外，虽然在功能性模块的背景下描述了本技术，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本技术是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本技术。还可以理解的是，所公开的概念仅仅是说明性的，并不意在限制本技术的范围，本技术的范围由所附权利要求书及其等同方案的全部范围来决定。
63.功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
64.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
65.计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。
66.应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
67.在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实
施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
68.尽管已经示出和描述了本技术的实施方式，本领域的普通技术人员可以理解：在不脱离本技术的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本技术的范围由权利要求及其等同物限定。
69.以上，以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征：

1.一种基于共振峰的语音训练方法，其特征在于，所述方法包括：通过分离基频和共振峰信息强化训练者的听觉辨别技巧；通过增强共振峰能量强化训练者的元音辨别能力；通过对比标准语音的共振峰分布纠正训练者的发音。2.根据权利要求1所述的一种基于共振峰的语音训练方法，其特征在于，所述通过分离基频和共振峰信息强化训练者的听觉辨别技巧，包括：分离元音声音的基频和共振峰信息；将元音声音的基频和共振峰信息进行重组得到语音刺激，通过所述语音刺激锻炼训练者的听觉技巧和能力。3.根据权利要求2所述的一种基于共振峰的语音训练方法，其特征在于，通过所述语音刺激锻炼训练者的听觉技巧和能力，包括：根据与汉语元音的相似度对所述语音刺激进行排序；按照排序后的所述语音刺激锻炼训练者的听觉技巧和能力。4.根据权利要求1所述的一种基于共振峰的语音训练方法，其特征在于，所述通过增强共振峰能量强化训练者的元音辨别能力，包括：将标准人声元音或辅音的读音材料，通过增强元音的共振峰的能量，进行语音辨别训练；提高元音的语音表征。5.根据权利要求4所述的一种基于共振峰的语音训练方法，其特征在于，增强元音的共振峰的能量，包括：根据训练过程中的训练效果自适应调节元音的共振峰的能量增强幅度。6.根据权利要求5所述的一种基于共振峰的语音训练方法，其特征在于，根据训练过程中的训练效果自适应调节元音的共振峰的能量增强幅度，包括：当训练者的辨别准确率低于第一阈值时，则降低元音的共振峰的能量增强幅度；当语音辨别准确率高于第二阈值时，则增加元音的共振峰的能量增强幅度。7.根据权利要求1所述的一种基于共振峰的语音训练方法，其特征在于，所述通过对比标准语音的共振峰分布纠正训练者的发音，包括：录制训练者的发音并分析所述训练者的发音的语音频谱信息；将所述训练者的发音的语音频谱信息与标准语音频谱图进行共振峰分布比较，计算共振峰的相似度；根据所述共振峰的相似度不同进行对应的训练。8.一种基于共振峰的语音训练系统，其特征在于，用于实现权利要求1-8任一项所述的一种基于共振峰的语音训练方法，所述系统包括测试部分和训练部分，所述训练部分包括听觉能力训练模块、元音或辅音辨别训练模块、语音评价反馈训练模块。9.根据权利要求8所述的一种基于共振峰的语音训练系统，其特征在于，所述听觉能力训练模块提供第一共振峰训练和第二共振峰训练，所述第一共振峰训练由基音与第一共振峰组合而成，所述第二共振峰训练由基音与第二共振峰组合而成。10.根据权利要求8所述的一种基于共振峰的语音训练系统，其特征在于，所述语音评价反馈训练模块获得训练者的成绩，根据训练者的成绩自适应调节元音的共振峰的能量增
强幅度。

技术总结

本申请公开了一种基于共振峰的语音训练方法及系统，其中的方法包括分离基频和共振峰信息强化训练者的听觉辨别技巧；通过增强共振峰能量强化训练者的元音辨别能力；通过对比标准语音的共振峰分布纠正训练者的发音，能够改善训练者的元音频率感知能力和发音准确性，提高对英语语音的辨别能力和拼读准确性，最终提高训练者的英语听力能力和口语表达能力。高训练者的英语听力能力和口语表达能力。高训练者的英语听力能力和口语表达能力。