← 返回列表

一种基于多语言预训练大模型的伪语言族聚类方法及装置

申请号: CN202311653724.1
申请人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
申请日期: 2023/12/4

摘要文本

本发明涉及文本机器翻译技术领域,特别是指一种基于多语言预训练大模型的伪语言族聚类方法及装置,方法包括:建立共享语言池;基于多语言预训练大模型,计算共享语言池中的语言对的费舍信息矩阵,获得共享语言池中的语言对的表征结果;根据表征结果对语言对之间的相似度进行计算,获得相似度值;根据相似度值,对语言对之间的相似性进行排序,根据预设边界值选择符合边界值的辅助语言对,完成基于多语言预训练大模型的伪语言族聚类。本发明使用多语言预训练本身的能力对语言对进行表征,更有效地选择并聚类辅助语言并提高其在不同模型和数据集之间的泛化性,最终提高低资源语言对在多语言协同训练下的翻译质量。

专利详细信息

项目 内容
专利名称 一种基于多语言预训练大模型的伪语言族聚类方法及装置
专利类型 发明申请
申请号 CN202311653724.1
申请日 2023/12/4
公告号 CN117688176A
公开日 2024/3/12
IPC主分类号 G06F16/35
权利人 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
发明人 刘学博; 马新羽; 张民
地址 广东省深圳市南山区桃源街道深圳大学城

专利主权项内容

1.一种基于多语言预训练大模型的伪语言族聚类方法,其特征在于,所述方法包括:S1、建立共享语言池;S2基于多语言预训练大模型,计算所述共享语言池中的语言对的费舍信息矩阵,获得所述共享语言池中的语言对的表征结果;S3、根据所述表征结果对所述语言对之间的相似度进行计算,获得相似度值;S4、根据所述相似度值,对所述语言对之间的相似性进行排序,根据预设边界值选择符合所述边界值的辅助语言对,完成基于多语言预训练大模型的伪语言族聚类。