一种基于多语言预训练大模型的伪语言族聚类方法及装置

申请号: CN202311653724.1

申请人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

申请日期: 2023/12/4

摘要文本

本发明涉及文本机器翻译技术领域，特别是指一种基于多语言预训练大模型的伪语言族聚类方法及装置，方法包括：建立共享语言池；基于多语言预训练大模型，计算共享语言池中的语言对的费舍信息矩阵，获得共享语言池中的语言对的表征结果；根据表征结果对语言对之间的相似度进行计算，获得相似度值；根据相似度值，对语言对之间的相似性进行排序，根据预设边界值选择符合边界值的辅助语言对，完成基于多语言预训练大模型的伪语言族聚类。本发明使用多语言预训练本身的能力对语言对进行表征，更有效地选择并聚类辅助语言并提高其在不同模型和数据集之间的泛化性，最终提高低资源语言对在多语言协同训练下的翻译质量。

申请人信息

申请人:哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
申请人地址:518000 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区
发明人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

专利详细信息

项目	内容
专利名称	一种基于多语言预训练大模型的伪语言族聚类方法及装置
专利类型	发明申请
申请号	CN202311653724.1
申请日	2023/12/4
公告号	CN117688176A
公开日	2024/3/12
IPC主分类号	G06F16/35
权利人	哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
发明人	刘学博; 马新羽; 张民
地址	广东省深圳市南山区桃源街道深圳大学城

专利主权项内容

1.一种基于多语言预训练大模型的伪语言族聚类方法，其特征在于，所述方法包括：S1、建立共享语言池；S2基于多语言预训练大模型，计算所述共享语言池中的语言对的费舍信息矩阵，获得所述共享语言池中的语言对的表征结果；S3、根据所述表征结果对所述语言对之间的相似度进行计算，获得相似度值；S4、根据所述相似度值，对所述语言对之间的相似性进行排序，根据预设边界值选择符合所述边界值的辅助语言对，完成基于多语言预训练大模型的伪语言族聚类。

一种基于多语言预训练大模型的伪语言族聚类方法及装置

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

一种基于多语言预训练大模型的伪语言族聚类方法及装置

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种焊接管路的辅助装置

一种导轨滑块刚性疲劳测试装置及其测试方法

X射线管及其阴极冷却装置、管芯组件

双歧杆菌分离培养方法

一种用于电子级硫酸生产废液的回收处理装置

自动化全内置超导磁铁磁场强度测量装置及测量方法

热门技术领域

快速入口

专利技术资料