← 返回列表

一种翻译质量评估方法、装置、设备及存储介质

申请号: CN202311782453.X
申请人: 武汉大学
申请日期: 2023/12/22

摘要文本

本发明公开了一种翻译质量评估方法、装置、设备及存储介质,其中该方法包括步骤:获取原始文本信息和翻译文本信息,并将所述原始文本信息和所述翻译文本信息拼接为文本序列;将所述文本序列输入至多语言预训练模型中进行特征提取,得到原始文本特征和翻译文本特征;将所述原始文本特征和翻译文本特征进行组合,得到融合原始文本特征和翻译文本特征的特征序列;利用平均池化层和特征混合层,对所述特征序列分别进行拆分和重组操作,并输出重组后的翻译特征,得到最终的预测分数,以对翻译质量进行评估。本申请能够提升英译中翻译的准确的,并且降低了训练成本,提高了模型的可迁移性。

专利详细信息

项目 内容
专利名称 一种翻译质量评估方法、装置、设备及存储介质
专利类型 发明授权
申请号 CN202311782453.X
申请日 2023/12/22
公告号 CN117436460B
公开日 2024/3/12
IPC主分类号 G06F40/51
权利人 武汉大学
发明人 李旺; 冉从敬; 刘瑞琦; 朱伟杰; 张逸人; 马丽娜; 莫富传; 黄文俊; 刘妍
地址 湖北省武汉市武昌区珞珈山武汉大学

专利主权项内容

1.一种翻译质量评估方法,其特征在于,包括:获取原始文本信息和翻译文本信息,并将所述原始文本信息和所述翻译文本信息拼接为文本序列;将所述文本序列输入至多语言预训练模型中进行特征提取,得到原始文本特征和翻译文本特征;将所述原始文本特征和翻译文本特征进行组合,得到融合原始文本特征和翻译文本特征的特征序列;利用平均池化层和特征混合层,对所述特征序列分别进行拆分和重组操作,并输出重组后的翻译特征,得到最终的预测分数,以对翻译质量进行评估;其中,利用标量混合层Scalar Mix对所述多语言预训练模型自低向上的每个隐藏层的特征进行抽取,并将抽取的特征进行组合,以使的所述多语言预训练模型抽取的文本特征中拥有原始文本和翻译文本从词级到句法再到语义上不同层次的语言学信息;利用所述多语言预训练模型中构建的平均池化层Avg Pool对所述特征序列进行拆分为来自原文的原始文本特征和来自机器翻译的翻译文本特征;利用特征混合层Mix Layer,接收所述平均池化层拆分的原始文本特征和翻译文本特征作为输入,并按照特定方式组合起来形成最终模型预测所需要的翻译特征,其中所述特定方式组合包括:特征拼接、特征求和以及可学习的标量组合网络;将所述翻译特征作为输入,经过一系列线性叠加层输出预测的结果,得到最终的评估分数;根据所述特征序列,获取原始文本特征序列和翻译文本特征序列;利用所述平均池化层分别将原始文本特征序列和翻译文本特征序列按照序列的时间维度求平均值;通过平均值将所述原始文本特征序列和翻译文本特征序列的每个维度的特征集合,以汇聚整个句子的特征;根据汇聚整个句子的特征,以使得从序列各个字词的特征向整个句子的特征的转换。 来自马克数据网