← 返回列表

一种视觉引导的目标端未来语境翻译方法

申请号: CN202311810908.4
申请人: 天津大学
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种视觉引导的目标端未来语境翻译方法
专利类型 发明申请
申请号 CN202311810908.4
申请日 2023/12/27
公告号 CN117474019A
公开日 2024/1/30
IPC主分类号 G06F40/40
权利人 天津大学
发明人 熊德意; 朱少林; 李上杰; 雷易锟
地址 天津市津南区海河教育园雅观路135号天津大学北洋园校区

摘要文本

本发明提供了一种视觉引导的目标端未来语境翻译方法。该方法包括:利用文本编码器提取源句子中待翻译文本对象的语义和语法特征,得到文本语义信息;利用预先训练的语言模型估计待翻译文本对象和视觉对象之间的语义相似度,根据对齐阈值和语义相似度构建多模态图;利用多模态编码器对待翻译文本对象的文本语义信息和多模态图进行合并处理,得到多模态融合信息;利用多模态解码器对多模态融合信息进行解码操作,得到多模态隐藏信息,利用目标端未来上下文预测器处理多模态隐藏信息和多模态融合信息,得到未来上下文信息;利用动态更新门将待翻译文本对象的未来上下文信息和多模态隐藏信息进行合并处理,得到待翻译文本对象的预测翻译。

专利主权项内容

1.一种视觉引导的目标端未来语境翻译方法,其特征在于,包括:利用文本编码器提取源句子中待翻译文本对象的语义和语法特征,得到所述待翻译文本对象的文本语义信息;利用预先训练的语言模型估计所述待翻译文本对象和与所述待翻译文本对象存在上下文关联关系的视觉对象之间的语义相似度,并根据预定义的对齐阈值和所述语义相似度构建多模态图;利用基于图的多模态编码器通过具有逐元素操作的门控机制对所述待翻译文本对象的文本语义信息和所述多模态图进行合并处理,得到多模态融合信息;利用多模态解码器对所述多模态融合信息进行解码操作,得到多模态隐藏信息,并利用目标端未来上下文预测器通过引导动态路由方法处理所述多模态隐藏信息和所述多模态融合信息,得到所述待翻译文本对象的未来上下文信息;利用动态更新门将所述待翻译文本对象的未来上下文信息和所述多模态隐藏信息进行合并处理,得到所述待翻译文本对象的预测翻译。