← 返回列表

基于热词特征向量自注意力机制的语音识别模型构建方法

申请号: CN202311758804.3
申请人: 慧言科技(天津)有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 基于热词特征向量自注意力机制的语音识别模型构建方法
专利类型 发明授权
申请号 CN202311758804.3
申请日 2023/12/20
公告号 CN117437909B
公开日 2024/3/5
IPC主分类号 G10L15/06
权利人 慧言科技(天津)有限公司
发明人 石争; 王宇光; 王龙标
地址 天津市河北区鸿顺里街律纬路168号诺德中心1号楼18层14、15、16、17号

摘要文本

慧言科技(天津)有限公司取得“一种透气窗帘布”专利技术,本发明提供一种基于热词特征向量自注意力机制的语音识别模型构建方法,具体包括:训练预训练模型,获取词嵌入层,以Decoder‑Only的方式进行训练,对词嵌入层进行优化;训练热词编码模型,以指定热词作为输入,并将热词编码为热词特征向量;将热词信息与声学特征信息融合,得到编码向量并作为最终的解码器输入,使得热词信息与声学模型信息联系更紧密,得到对热词识别准确率更高的语音识别模型。在用户使用过程中,可以主动指定多个热词,初始化语音识别引擎时将会使用热词编码模型对热词进行编码得到热词特征向量序列。在用户使用过程中,该热词特征序列将会作为模型输入与用户每次输入的声学特征进行拼接并进行解码。 来自专利查询网

专利主权项内容

1.基于热词特征向量自注意力机制的语音识别模型构建方法,其特征在于,包括以下步骤:S1以Decoder-Only的方式训练预训练模型,对词嵌入层进行优化;S2应用热词训练数据序列训练热词编码模型,提取热词特征向量;S3使用热词编码模型对随机抽取的热词进行编码,将得到的候选热词特征向量与音频特征向量进行拼接,在编码过程中使用基于热词特征向量自注意力机制将热词信息与音频信息融合,得到融合特征向量并作为最终的解码器输入;所述步骤S1中预训练模型包括:词嵌入层、特征编码器和分类器;所述词嵌入层由Embedding层构成;所述特征编码器是由若干层单向长短期记忆人工神经网络构成;所述分类器由全连接层构成,所述全连接层和词嵌入层共享参数;所述步骤S1具体如下:S1-1应用文本对预训练模型的词嵌入层进行预训练S1-1-1随机初始化预训练模型参数;S1-1-2通过词嵌入层对输入序列进行编码转换为词向量序列;S1-1-3通过特征编码器对词向量序列进行编码和特征提取;S1-1-4使用分类器计算逻辑回归评分,并通过归一化指数函数softmax进行归一化处理;S1-1-5通过交叉熵损失函数Cross Entropy计算损失值并进行模型更新;S1-2在完成预训练后,舍弃除词嵌入层外的其他层,仅保留词嵌入层参数;所述步骤S2中热词编码模型包括:词嵌入层、特征编码器和仅在训练过程中生效的特征解码器;所述词嵌入层由Embedding层构成,在训练阶段初始化为S1中预训练模型的词嵌入层的权重;所述特征编码器是由若干层双向长短期记忆人工神经网络构成;所述仅在训练过程中生效的特征解码器是由若干层单向长短期记忆人工神经网络构成;所述步骤S2具体如下:S2-1准备热词训练数据S2-1-1使用分词工具对文本进行分词处理,获取词汇数据;S2-1-2使用字典中的字符随机生成词汇数据;S2-1-3将上述两步的数据组合去重,得到热词训练数据序列;S2-2应用热词训练数据序列对热词编码模型进行训练S2-2-1通过词嵌入层对热词训练数据序列进行编码转换为词向量序列;S2-2-2通过特征编码器对词向量序列进行编码和特征提取,获取热词特征向量;S2-2-3特征解码器的初始状态初始化为热词特征向量,将热词特征向量作为输入,进行解码;S2-2-4使用分类器计算逻辑回归评分,并通过归一化指数函数进行归一化处理;S2-2-5通过交叉熵损失函数计算损失值并进行模型更新。