首页 > 乐器声学 专利正文
发音评测方法、装置、电子设备及可读存储介质与流程

时间:2022-02-24 阅读: 作者:专利查询

发音评测方法、装置、电子设备及可读存储介质与流程

1.本技术涉及计算机领域,具体而言,涉及一种发音评测方法、装置、电子设备及可读存储介质。


背景技术:

2.我国学习外语的人数非常多,仅在k12领域就有1.2亿学生在学习英语,学前教育低幼人数也近5000万。在英语学习训练过程中,为了解放老师和家长的负担,增进学生学习英语的兴趣,英语发音评测技术被越来越多的采用。在目前的发音评测技术中,是先利用标准读音训练得到声学模型,然后基于该声学模型,结合参考读音文本和解码器技术,对学生的发音质量好坏进行评价,给出得分。
3.但是,在评测的过程中,当发音出现正常的连读弱读时,由于这种发音相对标准发音有较大的不同,因此通过上述发音评测方法得到的分值都会偏低,影响用户体验。也即,上述发音评测方法在出现正常的连读弱读时,会出现评测的分值不准确的情况。


技术实现要素:

4.本技术实施例,提供了一种发音评测方法、装置、电子设备及可读存储介质,其能够提升在出现正常的单词连读和/或单词弱读时的评测准确性,从而提升用户体验。
5.本技术的实施例可以这样实现:
6.第一方面,本技术实施例提供一种发音评测方法,包括:
7.获得预设文本对应的构图;
8.获得与所述预设文本对应的待评测音频的音频特征;
9.基于预先训练好的目标声学模型、所述构图及音频特征,获得音素对齐结果,其中,所述音素对齐结果中包括所述待评测音频对应的各个标准音素的音素描述信息,所述音素描述信息用于描述标准音素对应的发音情况,所述目标声学模型训练时使用的样本音频特征对应的样本音频包括预设连读单词的第一音频组和/或预设弱读单词的第二音频组,所述第一音频组包括所述预设连读单词的标准读音和单词连读时的第一读音,所述第二音频组包括所述预设弱读单词的标准读音和单词弱读时的第二读音;
10.根据所述音素对齐结果确定评测结果。
11.第二方面,本技术实施例提供一种发音评测装置,包括:
12.构图模块,用于获得预设文本对应的构图;
13.音频特征获得模块,用于获得与所述预设文本对应的待评测音频的音频特征;
14.对齐模块,用于基于预先训练好的目标声学模型、所述构图及音频特征,获得音素对齐结果,其中,所述音素对齐结果中包括所述待评测音频对应的各个标准音素的音素描述信息,所述音素描述信息用于描述标准音素对应的发音情况,所述目标声学模型训练时使用的样本音频特征对应的样本音频包括预设连读单词的第一音频组和/或预设弱读单词的第二音频组,所述第一音频组包括所述预设连读单词的标准读音和单词连读时的第一读
音,所述第二音频组包括所述预设弱读单词的标准读音和单词弱读时的第二读音;
15.评测模块,用于根据所述音素对齐结果确定评测结果。
16.第三方面,本技术实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述实施方式所述的发音评测方法。
17.第四方面,本技术实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式所述的发音评测方法。
18.本技术实施例提供的发音评测方法、装置、电子设备及可读存储介质,首先,获得预设文本对应的构图及对应的待评测音频的音频特征;然后,基于预先训练好的目标声学模型、构图及音频特征,获得音素对齐结果,该音素对齐结果中包括所述待评测音频对应的各个标准音素的音素描述信息,所述音素描述信息用于描述标准音素对应的发音情况,所述目标声学模型训练时使用的样本音频特征对应的样本音频包括预设连读单词的第一音频组和/或预设弱读单词的第二音频组,所述第一音频组包括所述预设连读单词的标准读音和单词连读时的第一读音,所述第二音频组包括所述预设弱读单词的标准读音和单词弱读时的第二读音;进而根据音素对齐结果确定评测结果。如此,在评测时利用基于单词连读时的读音和单词弱读时的读音中的至少一种及相应的标准读音训练出的目标声学模型进行分析,可避免在出现正常的连读和/或弱读时,由于使用仅基于标准读音训练得到的声学模型,导致的评测不准确的情况,从而提高在出现正常的连读和/或弱读时的评测准确性,提升用户体验。
附图说明
19.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
20.图1为本技术实施例提供的电子设备的方框示意图;
21.图2为本技术实施例提供的发音评测方法的流程示意图;
22.图3为本技术实施例提供的获取目标声学模型的过程示意图;
23.图4为图3中步骤s130包括的子步骤的流程示意图之一;
24.图5为图3中步骤s130包括的子步骤的流程示意图之二;
25.图6为本技术实施例提供的发音评测装置的方框示意图。
26.图标:100

电子设备;110

存储器;120

处理器;130

通信单元;200

发音评测装置;210

构图模块;220

音频特征获得模块;230

对齐模块;240

评测模块。
具体实施方式
27.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
28.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
29.需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
30.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
31.请参照图1,图1为本技术实施例提供的电子设备100的方框示意图。所述电子设备100可以是,但不限于,智能手机、电脑、服务器等。所述电子设备100可以包括存储器110、处理器120及通信单元130。所述存储器110、处理器120以及通信单元130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
32.其中,存储器110用于存储程序或者数据。所述存储器110可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read

only memory,prom),可擦除只读存储器(erasable programmable read

only memory,eprom),电可擦除只读存储器(electric erasable programmable read

only memory,eeprom)等。
33.处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。比如,存储器110中存储有发音评测装置200,所述发音评测装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中的软件功能模块。所述处理器120通过运行存储在存储器110内的软件程序以及模块,如本技术实施例中的发音评测装置200,从而执行各种功能应用以及数据处理,即实现本技术实施例中的发音评测方法。
34.通信单元130用于通过网络建立所述电子设备100与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
35.应当理解的是,图1所示的结构仅为电子设备100的结构示意图,所述电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
36.请参照图2,图2为本技术实施例提供的发音评测方法的流程示意图。所述方法可应用于上述电子设备100。所述方法可以用于对少儿的英语发音进行评测,也可以用于对成人的英语发音进行评测,在此不进行具体限定。下面对发音评测方法的具体流程进行详细阐述。该发音评测方法可以包括步骤s210~步骤s240。
37.步骤s210,获得预设文本对应的构图。
38.在本实施例中,所述预设文本为需要被评测的音频所对应的文本。比如,少儿跟读一英文文本,需要对少儿朗读该英文文本的英文音频进行发音评测,则该英文文本即为所
述预设文本,少儿朗读该英文文本的英文音频为预设文本对应的待评测音频。
39.在本实施例中,可经过如下构图处理,从而得到所述预设文本对应的构图:通过预先训练好的目标声学模型,结合与所述目标声学模型对应的发音词典,基于所述预设文本,经过hclg操作,从而得到需要对齐解码的图作为所述构图。
40.其中,hclg操作中的g,表示语言模型wfst(weighted finite

statetransducer,加权有限状态转换器),g的输入输出类型相同,实际上是一个实际是一个wfsa(acceptor接受机),为了方便与其它三个wfst进行操作,将其视为一个输入输出相同的wfst。这里可以理解为输入的预设文本。
41.hclg操作中的l,表示发音词典wfst,输入符号:monophone,输出符号:词。这里可以理解发音词典,例如,在所述预设文本为英文时,发音词典中可以包括:help:hh eh l p。也即发音词典中包括单词及单词对应的音素序列。
42.hclg操作中的c,表示上下文相关wfst,输入符号:triphone(上下文相关),输出符号:monophnoe。hclg操作中的h,表示hmm声学模型wfst,输入符号:hmmtransitions

ids,输出符号:triphone。
43.c和h都是声学模型训练出的产物。将四者逐层合并,即可得到最后的图(即构图)。所述构图的文件类型可以为hclg.fst。
44.声学模型用于计算声学特征属于各个音素的后验概率,一般情况下声学模型是由100h小时以上的发音标准的音频训练而成。下面对声学模型的训练过程进行简要描述:音频先分帧,然后提取特征为40维的梅尔倒谱系数mfcc特征;在提取特征完成后,将音频文本按字典展开成音素,用时延神经网络tdnn训练得到声学模型。
45.本技术实施例中使用的目标声学模型训练时使用的样本音频特征(即声学特征)对应的样本音频,包括预设连读单词的第一音频组和/或预设弱读单词的第二音频组。其中,所述第一音频组包括所述预设连读单词的标准读音和单词连读时的第一读音,所述第二音频组包括所述预设弱读单词的标准读音和单词弱读时的第二读音。也即,所述第一音频组中的第一读音为一个单词组被正常连读时的音频,所述第二音频组中的第二读音为一个单词被正常弱读时的音频。该目标声学模型学习到了连读和/或弱读时的发音特性。
46.对应地,所述目标声学模型对应的发音词典中也可以包括所述预设连读单词的标准音素序列(实际可以是分别保存的所述预设连读单词中每一个单词的标准音素序列)及被连读时对应的音素序列,和/或所述预设弱读单词的标准音素序列及被弱读时对应的音素序列。如此,在所述发音词典中,所述预设连读单词、预设弱读单词可以被视为多音字。
47.比如,help me单词组合在标准读音下对应的标准音素序列为hh eh l p m iy,可以将连读时构成的新单词help

me及该新单词help

me对应的音素序列hh eh l p_m iy保存到所述发音词典中。help

me为多音字。
48.再比如,would在标准读音下对应的正常音素序列为w uh d,在弱读时的音素序列为w d。则可以将would及在弱读时的音素序列保存到所述发音词典中,将would作为多音字。
49.步骤s220,获得与所述预设文本对应的待评测音频的音频特征。
50.在本实施例中,还可以通过任意方式获得需要被评测的音频的声学特征,并将该声学特征作为所述待评测音频的音频特征。其中,可以按照常规训练声学模型时提取声学
特征的方式获得所述待评测音频的音频特征。
51.步骤s230,基于预先训练好的目标声学模型、所述构图及音频特征,获得音素对齐结果。
52.在本实施例中,可以基于所述音频特征,结合所述目标声学模型,获得似然和后验概率等信息;然后针对所述构图、通过目标声学模型得到的似然和后验概率等信息,通过viterbi算法进行解码,从而得到所述待评测音频对应的音素对齐结果。其中,viterbi算法用于选择最优路径。
53.其中,所述音素对齐结果中可以包括所述待评测音频对应的各个标准音素的音素描述信息。所述音素描述信息用于描述标准音素对应的发音情况。
54.所述待评测音频可以按照每段音频对应的音素不同,划分为多个音素段。一个音素段对应的标准音素,表示基于预设文本确定的在正确读预设文本的情况下该音素段所对应的音素。比如,基于所述预设文本及发音词典,确定某段音素段应该对应的正确音素为h,则h即为该音素段的标准音素。一个标准音素的音素描述信息中可以包括:该标准音素的音素得分、该标准音素的后验概率、该标准音素的持续时长等。
55.比如,针对help me的音素对齐结果中可以包括:音素序列hh eh l p m iy,该音素序列中每个音素的音素得分、后验概率及持续时间等。其中,音素序列中的音素为help me对应的标准音素。
56.步骤s240,根据所述音素对齐结果确定评测结果。
57.可选地,可以将所述音素对齐结果直接作为所述待评测音频的评测结果;还可以对所述音素对齐结果进行分析,并将得到的分析结果作为所述评测结果,或者将分析结果及音素对齐结果一起作为所述评测结果。比如,基于所述音素对齐结果获得每个单词的得分,然后将每个单词的得分作为所述评测结果;或者,基于所述音素对齐结果确定出一个总得分,然后将该总得分作为所述评测结果。可以理解的是,上述仅为仅为举例说明,也可以通过其他方式基于所述音素对齐结果确定所述评测结果。
58.本技术实施例在评测时,利用基于单词连读时的读音和单词弱读时的读音中的至少一种及相应的标准读音训练出的目标声学模型进行分析,可避免在出现正常的连读和/或弱读时,由于使用仅基于标准读音训练得到的声学模型,导致的评测不准确的情况,从而提高在出现正常的连读和/或弱读时的评测准确性,提升用户体验。
59.在本实施例中,所述目标声学模型可以是所述电子设备100预先训练得到的,也可以是其他电子设备训练好之后发送给所述电子设备100的。
60.其中,可选地,在训练得到所述目标声学模型时,可以人工手动选出预设连读单词和/或预设弱读单词,然后基于选出的所述预设连读单词和/或所述预设弱读单词,训练得到所述目标声学模型。
61.可选地,还可以通过图3所示方式获得所述目标声学模型。请参照图3,图3为本技术实施例提供的获取目标声学模型的过程示意图。获取所述目标声学模型的步骤可以包括步骤s110~步骤s130。
62.步骤s110,基于第一声学模型,对第二训练集进行音素对齐处理,得到所述第二训练集中的样本文本对应的样本对齐信息。
63.可选地,在本实施例中,所述第一声学模型根据包括发音标准的音频数据的第一
训练集训练得到。其中,所述第一训练集中可以包括经过人工检测没有连读连读情况的100小时的训练数据。训练得到所述第一声学模型与训练得到所述目标声学模型的设备可以是同一个设备,也可以是不同的设备,可以根据实际情况确定。比如,将当前发音评测方法中的声学模型直接作为所述第一声学模型,如此可以不需要单独进行训练,即可得到所述第一声学模型。
64.所述第二训练集的音频数据中可以包括弱读和/或连读情况,具体可以根据实际需求确定。可利用所述第一声学模型,经过音素对齐流程,对所述第二训练集进行音素对齐,获得所述训练集中的样本文本对应的样本对齐信息。所述样本对齐信息中可以包括每个单词对应的单词对齐信息。
65.步骤s120,根据所述样本对齐信息,选出所述预设连读单词和/或所述预设弱读单词。
66.在本实施例中,在获得所述样本对齐信息的情况下,可以自动挖掘出作为所述预设连读单词的单词组合和/或作为所述预设弱读单词的单词。
67.请参照图4,图4为图3中步骤s120包括的子步骤的流程示意图之一。可通过图4所示子步骤自动确定出所述预设连读单词。在本实施例中,所述步骤s120可以包括子步骤s1211~子步骤s1215。
68.子步骤s1211,基于所述样本文本,依次选取目标单词组。
69.在本实施例中,可滑窗取连读的两个单词作为一个目标单词组。所述两个单词包括按照阅读的先后顺序分布的第一单词及第二单词。也即,在音频中出现所述目标单词组时,所述第一单词先出现,所述第二单词后出现。
70.本技术发明人经研究发现,连读单词具有明显的先验性质。比如,help me单词组合对应的正常音素序列为hh eh l p m iy。如果连读,则help最后的音素p的后验概率比较低,me开头的音素m的后验概率比较低,在此情况下,可以构成help

me新单词,对应的连读音素序列为hh eh l p_m iy。同时也会保留h eh l p m iy正常音素序列,由此将help

me作为多音字。基于该发现,可通过如下子步骤s1212~子步骤s1214确定一个单词组是否为连读单词。
71.子步骤s1212,根据所述样本文本的样本对齐信息,获得所述目标单词组的对齐信息。
72.在本实施例中,所述样本文本的样本对齐信息包括所述样本文本中的每个单词对应的单词对齐信息,在确定所述目标单词组的情况下,可从所述样本对齐信息中获得所述目标单词组中所述第一单词的单词对齐信息以及所述第二单词的单词对齐信息,以作为所述目标单词组的对齐信息。
73.其中,所述目标单词组的对齐信息中包括该目标单词组对应的音素序列及所述音素序列中各标准音素对应的音素信息。该目标单词组对应的音素序列由该目标单词组中各单词对应的标准音素组成,一个单词对应至少一个标准音素。一个标准音素对应的所述音素信息,包括该标准音素的第一后验概率及该标准音素所对应的音素段对应其他音素(即除音素段对应的标准音素之外的音素)的第二后验概率。
74.子步骤s1213,根据所述目标单词组的对齐信息,得到所述第一单词的末尾标准音素的第一音素信息及所述第二单词的开始标准音素的第二音素信息。
75.在获得所述目标单词组的对齐信息的情况下,从所述目标单词组的对齐信息中获得所述第一单词的末尾标准音素的第一音素信息、以及所述第二单词的开始标准音素的第二音素信息。也即,将所述第一单词的最后一个标准音素的音素信息作为所述第一单词的末尾标准音素的第一音素信息,将所述第二单词的第一个标准音素的音素信息作为所述第二单词的开始标准音素的第二音素信息。
76.接着,则根据所述第一音素信息,判断所述第一单词的末尾标准音素的第一后验概率是否小于预设值;并判断所述第一单词的末尾标准音素所对应的第二后验概率中的最大值(即末尾标准音素所对应的音素段对应其他音素的第二后验概率中的最大第二后验概率)对应的音素是否为末尾标准音素,也即判断末尾标准音素所对应的音素段对应的最优音素是否为目前的末尾标准音素。其中,所述预设值结合实际需求设置。
77.还根据所述第二音素信息,判断所述第二单词的开始标准音素的第一后验概率是否小于所述预设值;并判断所述第二单词的开始标准音素所对应的第二后验概率中的最大值(即开始标准音素所对应的音素段对应其他音素的第二后验概率中的最大第二后验概率)对应的音素是否为开始标准音素,也即判断开始标准音素所对应的音素段对应的最优音素是否为目前的开始标准音素。
78.子步骤s1214,在根据所述第一音素信息及第二音素信息,确定所述第一音素信息及第二音素信息中的第一后验概率均小于预设值且最大第二后验概率对应的音素均不是标准音素的情况下,确定所述目标单词组为连读单词。
79.在所述第一单词的末尾标准音素的第一后验概率小于所述预设值、以及所述第一单词的末尾标准音素所对应的第二后验概率中的最大值对应的音素不是末尾标准音素,并且所述第二单词的开始标准音素的第一后验概率小于所述预设值、以及所述第二单词的开始标准音素所对应的第二后验概率中的最大值对应的音素不是开始标准音素的情况下,也即在所述第一音素信息及第二音素信息中的第一后验概率均小于预设值且最大第二后验概率对应的音素均不是标准音素的情况下,确定该目标单词组为连读单词。
80.在所述第一音素信息及音素信息不满足以下条件的情况下:所述第一音素信息及第二音素信息中的第一后验概率均小于预设值且最大第二后验概率对应的音素均不是标准音素的情况下,不将所述目标单词组作为所述连读单词。
81.可选取多个目标单词组,然后针对每个目标单词组执行上述处理,以确定所针对的目标单词组是否为连读单词,从而从所述第二训练集中确定出连读单词。
82.子步骤s1215,从确定出的连读单词中,获得所述预设连读单词。
83.作为一种可能的实现方式,可将确定出的连读单词均作为所述预设连读单词。如此,可保证所述目标声学模型对单词连读的识别效果。
84.作为另一种可能的实现方式,还可以从确定出的连读单词中选出一部分连读单词作为所述预设连读单词。如此,可缩短训练得到所述目标声学模型的时间。
85.可选地,可通过如下方式选出所述预设连读单词:统计每个连读单词在所述第二训练集中的第一出现次数;根据所述第一出现次数,选出所述预设连读单词。
86.在本实施方式中,可先对每个连读单词在所述第二训练集中的出现次数进行统计,以获得每个连读单词的第一出现次数。进而可按照第一出现次数由大到小的顺序,选出所述预设连读单词。其中,每个预设连读单词的第一出现次数大于未被选为预设连读单词
的连读单词的第一出现次数,所述预设连读单词的数量小于所述连读单词的数量。
87.可选地,可以按照第一出现次数由大到小的顺序,选出第一预设数量的连读单词作为预设连读单词。也可以将第一出现次数大于第一预设出现次数的连读单词作为所述预设连读单词。其中,所述第一预设数量及第一预设出现次数可以结合实际需求设置。具体预设连读单词的选取方式可以根据实际需求确定。
88.如此,可将出现频次较高的连读单词作为所述预设连读单词,使得得到的所述预设连读单词可以基本覆盖连读的单词组合,保证所述目标声学模型的训练效果;同时还可以保证连读单词组合的音素序列有充分的训练语料。
89.下面对获得所述预设连读单词的方式,进行举例说明。
90.比如,所述目标单词组为help me,可从所述样本对齐信息中获得该目标单词组的音素序列为:hh eh l p m iy。当第一单词help最后的音素p的第一后验概率小于预设值、且help最后的音素p所对应的音素段对应的最优音素(即最大第二后验概率对应的音素,该最大第二后验概率为help最后的音素段对应其他音素的第二后验概率中的最大值)不是音素p,并且第二单词me开头的音素m的第一后验概率小于所述预设值、且me开头的音素m所对应的音素段对应的最优音素不是音素m,则可以认为该目标单词组是连读单词,构成了新单词help

me,对应的音素序列(即连读音素序列)为hh eh l p_m iy。同时发音词典中也会保留正常音素序列h eh l p m iy,即help

me为多音字。
91.在确定出现连读单词之后,可从第二训练集中按照所述第一出现次数由大小的顺序,选出500个连读单词作为所述预设连读单词。
92.本技术发明人经研究发现,弱读单词具有明显的先验性质。比如,would对应的正常音素序列为w uh d。如果弱读某个音素,则被弱读的这个音素的音素得分会比较低,并且持续时间比较短。比如would可以对应w d(也即弱读音素序列)发音训练,同时也会保留would的正常音素序列,将would作为多音字。基于该发现,可通过图5所示方式自动确定出弱读单词,进而获得预设连读单词。
93.请参照图5,图5为图3中步骤s120包括的子步骤的流程示意图之二。可通过图5所示子步骤自动确定出所述预设弱读单词。在本实施例中,所述步骤s130可以包括子步骤s1231~子步骤s1233。
94.子步骤s1231,从所述样本对齐信息中依次获取一个目标单词的单词对齐信息。
95.在本实施例中,可依次从所述样本样本对齐信息中获得一个单词的单次对齐信息作为一个目标单词的单词对齐信息。其中,所述单词对齐信息中包括所述目标单词对应的单词音素序列及所述单词音素序列中各标准音素对应的音素信息,一个标准音素对应的音素信息包括该标准音素的音素得分及持续时长。
96.可选地,可以比较所述目标单词的每个标准音素的音素得分,从而确定所述目标单词是否出现单个标准音素的音素得分低以及所述目标单词中除上述单个标准音素之外的其他标准音素的音素得分高的情况。其中,其他标准音素,是指所述目标单词对应的标准音素中,除了单个音素得分低的标准音素之外的标准音素。
97.可选地,可以通过音素得分的比较,判断是否所述目标单词的一个标准音素的音素得分最低、且与其他标准音素(即所述目标单词中除上述单个标准音素之外的其他标准音素)的音素得分之间的差异程度满足预设要求。若出现,这可以确定该目标单词的单个标
准音素的音素得分低、并且所述目标单词中除上述单个标准音素之外的其他标准音素的音素得分高。其中,所述预设要求可以结合实际需求设置。
98.作为一种可能的实现方式,所述预设要求包括预设差值。可以通过音素得分的比较,选出一个最小的音素得分以及次小的音素得分。然后计算最小的音素得分和次小的音素得分之间的差值。若该差值大于预设差值,则可以认为所述目标单词的一个标准音素的音素得分最低、且与其他标准音素的音素得分之间的差异程度满足预设要求;也即所述目标单词的某个音素的音素得分低、其他音素的音素得分高。若该差值未大于所述预设差值,则不认为所述目标单词的一个标准音素的音素得分低、且其他标准音素的音素得分高。当然可以理解的是,上述判断方式仅为举例说明,也可以通过其他判断方式确定是否所述目标单词的某个音素的音素得分低、其他音素的音素得分高。
99.还可以将最小音素得分对应的标准音素的持续时长与预设时长进行比较,以判断低分标准音素的持续时间是否短。其中,所述预设时长可以结合音素被弱读时的持续时长进行设置。
100.子步骤s1232,在根据所述目标单词所对应的单词音素序列中各标准音素的音素信息,确定所述目标单词的一个标准音素的音素得分最低且与其他标准音素的音素得分之间的差异程度满足预设要求、以及该标准音素的持续时长小于预设时长的情况下,确定所述目标单词为弱读单词。
101.在所述目标单词有一个最低音素得分、且该最低音素得分与所述目标单词的其他因素得分之间的差异程度满足所述预设要求、以及最低音素得分对应的标准音素的持续时长小于所述预设时长的情况,确定该目标单词为弱读单词。
102.在所述目标单词不满足以下条件的情况下:所述目标单词的一个标准音素的音素得分最低且与其他标准音素的音素得分之间的差异程度满足预设要求、以及该标准音素的持续时长小于预设时长,不将所述目标单词作为弱读单词。
103.可选取多个目标单词,然后针对每个目标单词执行上述处理,以确定所针对的目标单词是否为弱读单词,从而从所述第二训练集中确定出弱读单词。
104.子步骤s1233,从确定出的弱读单词中,获得所述预设弱读单词。
105.作为一种可能的实现方式,可将确定出的弱读单词均作为所述预设弱读单词。如此,可保证所述目标声学模型对单词弱读的识别效果。
106.作为另一种可能的实现方式,还可以从确定出的弱读单词中选出一部分弱读单词作为所述预设弱读单词。如此,可缩短得到所述目标声学模型的时间。
107.可选地,可通过如下方式选出所述预设弱读单词:统计每个弱读单词在所述第二训练集中的第二出现次数;根据所述第二出现次数,选出所述预设弱读单词。
108.在本实施方式中,可先对每个弱读单词在所述第二训练集中的出现次数进行统计,以获得每个弱读单词的第二出现次数。进而,可按照第二出现次数由大到小的顺序,选出所述预设弱读单词。其中,每个预设连读单词的第二出现次数大于未被选为预设弱读单词的弱读单词的第二出现次数,所述预设弱读单词的数量小于所述弱读单词的数量。
109.可选地,可以按照第二出现次数由大到小的顺序,选出第二预设数量的弱读单词作为预设弱读单词。也可以将第二出现次数大于第二预设出现次数的弱读单词作为所述预设弱读单词。其中,所述第二预设数量及第二预设出现次数均可以结合实际需求设置。具体
预设连读单词的选取方式可以根据实际需求确定。
110.如此,可将出现频次较高的弱读单词作为所述预设弱读单词,使得得到的所述预设弱读单词可以基本覆盖弱读的单词,保证所述目标声学模型的训练效果;同时还可以保证弱读单词的音素序列有充分的训练语料。
111.步骤s130,根据选出的所述预设连读单词和/或所述预设弱读单词,训练得到所述目标声学模型。
112.作为一种可选的实施方式,可以获得其他单词的音频、所述预设连读单词的第一音频组和所述预设弱读单词的第二音频组两者中的至少一个音频组,进行声学模型训练,从而得到所述目标声学模型。
113.作为另一种可选的实施方式,还可以通过如下方式获得所述目标声学模型:将所述预设连读单词对应的连读音素序列和/或所述预设弱读单词对应的弱读音素序列加入发音词典中;根据所述发音词典以及对应有所述预设连读单词和/或所述预设弱读单词的第三训练集,对所述第一声学模型进行训练,得到所述目标声学模型。其中,所述第三训练集可以是从所述第二训练集中得到的。如此,可缩短所述目标声学模型的训练过程,提高获得所述目标声学模型的速度。
114.为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种发音评测装置200的实现方式,可选地,该发音评测装置200可以采用上述图1所示的电子设备100的器件结构。进一步地,请参照图6,图6为本技术实施例提供的发音评测装置200的方框示意图。需要说明的是,本实施例所提供的发音评测装置200,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。所述发音评测装置200可以包括:构图模块210、音频特征获得模块220、对齐模块230及评测模块240。
115.所述构图模块210,用于获得预设文本对应的构图。
116.所述音频特征获得模块220,用于获得与所述预设文本对应的待评测音频的音频特征。
117.所述对齐模块230,用于基于预先训练好的目标声学模型、所述构图及音频特征,获得音素对齐结果。其中,所述音素对齐结果中包括所述待评测音频对应的各个标准音素的音素描述信息,所述音素描述信息用于描述标准音素对应的发音情况,所述目标声学模型训练时使用的样本音频特征对应的样本音频包括预设连读单词的第一音频组和/或预设弱读单词的第二音频组,所述第一音频组包括所述预设连读单词的标准读音和单词连读时的第一读音,所述第二音频组包括所述预设弱读单词的标准读音和单词弱读时的第二读音。
118.所述评测模块240,用于根据所述音素对齐结果确定评测结果。
119.可选地,在本实施例中,所述目标声学模型可通过训练模块进行训练得到。所述训练模块用于:基于第一声学模型,对第二训练集进行音素对齐处理,得到所述第二训练集中的样本文本对应的样本对齐信息,其中,所述第一声学模型根据包括发音标准的音频数据的第一训练集训练得到,所述样本对齐信息包括每个单词对应的单词对齐信息;根据所述样本对齐信息,选出所述预设连读单词和/或所述预设弱读单词;根据选出的所述预设连读单词和/或所述预设弱读单词,训练得到所述目标声学模型。
120.可选地,在本实施例中,所述训练模块具体用于:基于所述样本文本,依次选取目标单词组,其中,所述目标单词组中包括连续的两个单词,所述两个单词包括按照阅读的先后顺序分布的第一单词及第二单词;根据所述样本文本的样本对齐信息,获得所述目标单词组的对齐信息,其中,所述目标单词组的对齐信息中包括对应的音素序列及所述音素序列中各标准音素对应的音素信息,一个标准音素对应的所述音素信息包括该标准音素的第一后验概率及该标准音素所对应的音素段对应其他音素的第二后验概率;根据所述目标单词组的对齐信息,得到所述第一单词的末尾标准音素的第一音素信息及所述第二单词的开始标准音素的第二音素信息;在根据所述第一音素信息及第二音素信息,确定所述第一音素信息及第二音素信息中的第一后验概率均小于预设值且最大第二后验概率对应的音素均不是标准音素的情况下,确定所述目标单词组为连读单词;从确定出的连读单词中,获得所述预设连读单词。
121.可选地,在本实施例中,所述训练模块具体用于:统计每个连读单词在所述第二训练集中的第一出现次数;根据所述第一出现次数,选出所述预设连读单词,其中,每个预设连读单词的第一出现次数大于未被选为预设连读单词的连读单词的第一出现次数,所述预设连读单词的数量小于所述连读单词的数量。
122.可选地,在本实施例中,所述训练模块具体用于:从所述样本对齐信息中依次获取一个目标单词的单词对齐信息,其中,所述单词对齐信息中包括所述目标单词对应的单词音素序列及所述单词音素序列中各标准音素对应的音素信息,一个标准音素对应的音素信息包括该标准音素的音素得分及持续时长;在根据所述目标单词所对应的单词音素序列中各标准音素的音素信息,确定所述目标单词的一个标准音素的音素得分最低且与其他标准音素的音素得分之间的差异程度满足预设要求、以及该标准音素的持续时长小于预设时长的情况下,确定所述目标单词为弱读单词;从确定出的弱读单词中,获得所述预设弱读单词。
123.可选地,在本实施例中,所述训练模块具体用于:统计每个弱读单词在所述第二训练集中的第二出现次数;根据所述第二出现次数,选出所述预设弱读单词,其中,每个预设连读单词的第二出现次数大于未被选为预设弱读单词的弱读单词的第二出现次数,所述预设弱读单词的数量小于所述弱读单词的数量。
124.可选地,在本实施例中,所述训练模块具体用于:将所述预设连读单词对应的连读音素序列和/或所述预设弱读单词对应的弱读音素序列加入发音词典中;根据所述发音词典以及对应有所述预设连读单词和/或所述预设弱读单词的第三训练集,对所述第一声学模型进行训练,得到所述目标声学模型。
125.可选地,上述模块可以软件或固件(firmware)的形式存储于图1所示的存储器110中或固化于电子设备100的操作系统(operating system,os)中,并可由图1中的处理器120执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器110中。
126.本技术实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的发音评测方法。
127.综上所述,本技术实施例提供一种发音评测方法、装置、电子设备及可读存储介质,首先,获得预设文本对应的构图及对应的待评测音频的音频特征;然后,基于预先训练好的目标声学模型、构图及音频特征,获得音素对齐结果,该音素对齐结果中包括所述待评
测音频对应的各个标准音素的音素描述信息,所述音素描述信息用于描述标准音素对应的发音情况,所述目标声学模型训练时使用的样本音频特征对应的样本音频包括预设连读单词的第一音频组和/或预设弱读单词的第二音频组,所述第一音频组包括所述预设连读单词的标准读音和单词连读时的第一读音,所述第二音频组包括所述预设弱读单词的标准读音和单词弱读时的第二读音;进而根据音素对齐结果确定评测结果。如此,在评测时利用基于单词连读时的读音和单词弱读时的读音中的至少一种及相应的标准读音训练出的目标声学模型进行分析,可避免在出现正常的连读和/或弱读时,由于使用仅基于标准读音训练得到的声学模型,导致的评测不准确的情况,从而提高在出现正常的连读和/或弱读时的评测准确性,提升用户体验。
128.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
129.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
130.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
131.以上所述仅为本技术的可选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。