多模态大语言模型的训练及推理方法、装置、设备及介质
摘要文本
本发明提供了多模态大语言模型的训练及推理方法、装置、设备及介质。该训练方法包括获取与用户的医学影像相关联的第一数据集和与用户的医疗记录相关联的第二文本数据集,其中第一数据集包括用户的医学影像的张量表示以及基于医学影像生成的关于医学影像的描述和判断的第一文本数据;基于第一数据集中包括的第一文本数据,对第一数据集和第二文本数据集进行聚类分析,以将第二文本数据集中的一个或多个第二文本数据与第一数据集相关联;将第一数据集保持存储在多模态大语言模型的缓存的第一分区中并且将一个或多个第二文本数据中的至少第一部分存储在缓存的第二分区中;基于第一分区中和第二分区中的数据训练多模态大语言模型以更新该模型的参数。
申请人信息
- 申请人:北京壹永科技有限公司
- 申请人地址:100102 北京市朝阳区广顺北大街33号院1号楼5层1单元601室
- 发明人: 北京壹永科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 多模态大语言模型的训练及推理方法、装置、设备及介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311763649.4 |
| 申请日 | 2023/12/20 |
| 公告号 | CN117637189A |
| 公开日 | 2024/3/1 |
| IPC主分类号 | G16H70/60 |
| 权利人 | 北京壹永科技有限公司 |
| 发明人 | 刘晓华; 刘泽恩; 张程剀; 陈小梅 |
| 地址 | 北京市朝阳区广顺北大街33号院1号楼5层1单元601室 |
专利主权项内容
1.一种多模态大语言模型的训练方法,包括:获取与用户的医学影像相关联的第一数据集和与所述用户的医疗记录相关联的第二文本数据集,其中所述第一数据集包括所述用户的所述医学影像的张量表示以及基于所述医学影像生成的关于所述医学影像的描述和判断的第一文本数据;基于所述第一数据集中包括的所述第一文本数据,对所述第一数据集和所述第二文本数据集进行聚类分析,以将所述第二文本数据集中的一个或多个第二文本数据与所述第一数据集相关联;将所述第一数据集保持存储在所述多模态大语言模型的缓存的第一分区中并且将所述一个或多个第二文本数据中的至少第一部分存储在所述缓存的第二分区中;基于所述缓存的所述第一分区中的所述第一数据集和所述第二分区中的数据训练所述多模态大语言模型以更新所述多模态大语言模型的参数,其中基于所述缓存的所述第一分区中的所述第一数据集和所述第二分区中的数据训练所述多模态大语言模型包括:将所述缓存的所述第一分区中的所述第一数据集和所述第二分区中的数据输入所述多模态大语言模型以获得第一输出结果;响应于获得所述第一输出结果,使用所述第一输出结果和/或所述一个或多个第二文本数据中的至少第二部分替换所述第二分区中的部分或全部文本数据以获得更新后的所述第二分区中的数据;以及将所述缓存的所述第一分区中的所述第一数据集和更新后的所述第二分区中的数据输入至所述多模态大语言模型以获得第二输出结果。。关注微信公众号马克数据网