← 返回列表

一种基于向量数据库的多模态大模型训练系统及方法

申请号: CN202311812207.4
申请人: 环球数科集团有限公司
申请日期: 2023/12/27

摘要文本

本发明涉及多模态模型训练系统的技术领域,提供了一种基于向量数据库的多模态大模型训练系统及方法,其系统包括数据预处理终端、向量数据库终端和模型训练终端;数据预处理终端用于将多模态数据转换为向量格式;向量数据库终端用于存储和管理经过预处理的向量数据,并提供数据检索功能;模型训练终端用于使用向量数据库终端中的数据进行多模态模型的训练。本发明具有提高多模态模型训练效率的效果。

专利详细信息

项目 内容
专利名称 一种基于向量数据库的多模态大模型训练系统及方法
专利类型 发明申请
申请号 CN202311812207.4
申请日 2023/12/27
公告号 CN117473329A
公开日 2024/1/30
IPC主分类号 G06F18/214
权利人 环球数科集团有限公司
发明人 张卫平; 邵胜博; 王丹; 王晶; 丁洋
地址 广东省深圳市南山区粤海街道高新南九道10号深圳湾科技生态园10栋B座17层01-03号

专利主权项内容

1.一种基于向量数据库的多模态大模型训练系统,其特征在于,包括数据预处理终端、向量数据库终端和模型训练终端;所述数据预处理终端用于将多模态数据转换为向量格式;所述向量数据库终端用于存储和管理经过预处理的向量数据,并提供数据检索功能;所述模型训练终端用于使用所述向量数据库终端中的数据进行多模态模型的训练;所述数据预处理终端包括文本数据向量化模块、图像数据向量化模块和声音数据向量化模块;所述文本数据向量化模块用于将多模态数据中的文本数据转换为向量格式的文本数据向量;所述图像数据向量化模块用于将多模态数据中的图像数据转换为向量格式的图像数据向量;所述声音数据向量化模块用于将多模态数据中的声音数据转换为向量格式的声音数据向量;所述向量数据库终端包括向量数据存储模块和向量数据管理模块;所述向量数据存储模块用于存储经过预处理后的向量数据;所述向量数据管理模块用于对向量数据进行冗余清理操作并提供数据检索功能。