← 返回列表

基于迁移学习和端到端模型的直升机话音识别方法及设备

申请号: CN202311317265.X
申请人: 黑龙江大学
申请日期: 2023/10/11

摘要文本

基于迁移学习和端到端模型的直升机话音识别方法及设备,属于语音识别技术领域。为了解决现有语音识别技术进行直升机座舱话音识别准确性低的问题以及识别模型训练难度大的问题,本发明首先构建编码器‑解码器结构的话音识别模型,基于模型的迁移学习方法,利用训练好的语音识别模型对应的模型权重参数和预训练模型得到话音识别模型;编码器输出高维的特征表示,之后进入CTC解码器,通过CTC前缀集数搜索算法产生N个最好的效果,采用Attention解码器对多个候选结果重打分,最后对话音热词进行热词增强,送入Softmax层输出结果;以话音识别模型为声学模型与语言模型融合得到直升机座舱话音识别模型,用于对待识别的直升机座舱话音进行识别。

专利详细信息

项目 内容
专利名称 基于迁移学习和端到端模型的直升机话音识别方法及设备
专利类型 发明申请
申请号 CN202311317265.X
申请日 2023/10/11
公告号 CN117351955A
公开日 2024/1/5
IPC主分类号 G10L15/22
权利人 黑龙江大学
发明人 王国涛; 王佳琦; 王世成; 节艳红; 宋守来; 孙玥
地址 黑龙江省哈尔滨市南岗区学府路74号

专利主权项内容

1.基于迁移学习和端到端模型的直升机话音识别方法,其特征在于,首先获取待识别的直升机座舱话音,然后对待识别的直升机座舱话音数据进行音速扰动处理,然后提取声学特征;基于直升机座舱话音识别模型对提取的声学特征进行识别;所述的直升机座舱话音识别模型通过以下步骤得到:首先训练出一个端到端的语音识别模型,端到端语音识别模型采用编码器-解码器结构,语音识别模型的编码器采用Conformer编码器;同时调用在WeNet语音识别工具上开源的预训练模型;基于模型的迁移学习方法,利用在开源数据集上训练的语音识别模型的权重参数,结合预训练模型结构得到直升机话音识别模型,直升机话音识别模型采用编码器-解码器结构,其中编码器为Conformer编码器;在迁移的过程中,将在开源数据集上训练的语音识别模型的权重参数保存,将预训练模型的参数按照语音识别模型的参数进行更改,然后在直升机话音数据集上训练,接着在迁移预训练模型时,去掉softmax层,得到直升机话音识别模型;在话音识别模型的测试阶段,编码器输出高维的特征表示,之后进入CTC解码器,使用CTC的解码结果作为中间结果,再通过CTC前缀集数搜索算法产生N个最好的效果,然后采用Attention解码器对多个候选结果重打分,最后对话音热词进行热词增强,最终送入Softmax层得到输出结果;在话音识别模型的基础上搭建融合语言模型,作为最终的直升机座舱话音识别模型;在话音识别模型的基础上搭建融合语言模型的过程包括以下步骤:以基于迁移学习得到的话音识别模型为声学模型,在测试解码阶段与语言模型通过浅融合的方式进行解码,通过CTC解码得到字符序列,然后加入语言模型对CTC计算单词序列的概率,最后将字符序列和单词序列两个序列结合起来计算每个前缀的概率;进而得到以话音识别模型为声学模型并与语言模型融合的融合语言模型。。搜索马 克 数 据 网