一种多模态大型语言模型训练方法、电子设备及存储介质
摘要文本
本发明提供了多模态大型语言模型训练方法、电子设备和存储介质,涉及计算机技术应用领域,包括:利用第一训练样本对图文对齐模型进行训练,得到训练后的图文对齐模型;第二训练样本对大型语言模型进行训练,第一训练样本对包含一个第一图像样本和对应的原始文本;第一图像样本仅包括自然图像;第二训练样本集包括多个第二训练样本对,每个第二训练样本对包含一个第二图像样本和对应的问答对文本,其中,第二图像样本中设置有目标检测框,第二图像样本至少包括文档、表格、图表和自然图像。本发明能够理解不同种类的图表和文档数据,且具有对图片中的区域准确定位的能力,能够解锁更加多样的多模态能力。
申请人信息
- 申请人:北京中科闻歌科技股份有限公司
- 申请人地址:100080 北京市海淀区北四环西路9号楼7层717室
- 发明人: 北京中科闻歌科技股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种多模态大型语言模型训练方法、电子设备及存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311412797.1 |
| 申请日 | 2023/10/27 |
| 公告号 | CN117409431A |
| 公开日 | 2024/1/16 |
| IPC主分类号 | G06V30/413 |
| 权利人 | 北京中科闻歌科技股份有限公司 |
| 发明人 | 罗引; 郝艳妮; 陈博; 马先钦; 徐楠; 曹家; 王磊 |
| 地址 | 北京市海淀区北四环西路9号楼7层717室 |
专利主权项内容
1.一种多模态大型语言模型训练方法,其特征在于,所述多模态大型语言模型至少包括大型语言模型和图文对齐模型,所述方法包括如下步骤:S100,获取第一训练样本集和第二训练样本集;所述第一训练样本集为图文对数据集,包括多个第一训练样本对,每个第一训练样本对包含一个第一图像样本和对应的原始文本;所述第一图像样本仅包括自然图像;所述第二训练样本集包括多个第二训练样本对,每个第二训练样本对包含一个第二图像样本和对应的问答对文本,其中,第二图像样本中设置有目标检测框,所述第二图像样本至少包括文档、表格、图表和自然图像;S200,对所述第一训练样本对进行预处理,得到对应的第一图像特征向量集合和第一文本特征向量集合,以及对所述第二训练样本对进行预处理,得到对应的第二图像特征向量集合和第二文本特征向量集合;S300,分别对第一图像特征向量集合和第二图像特征向量集合进行压缩,得到对应的第一图像压缩特征向量集合和第二图像压缩特征向量集合;S400,基于所述第一图像压缩特征向量集合和第一文本特征向量集合对图文对齐模型进行训练,得到训练后的图文对齐模型;S500,将所述第二图像压缩特征向量集合和第二文本特征向量集合输入所述训练后的图文对齐模型中,得到对应的图文配对信息;S600,基于所述第二图像压缩特征向量集合和所述图文配对信息对大型语言模型进行训练,得到训练后的大型语言模型;S700,基于训练后的图文对齐模型和训练后的大型语言模型,得到训练好的多模态大型语言模型。