图文识别大模型的训练方法、装置、设备以及存储介质

申请号: CN202311666538.1

申请人: 北京百度网讯科技有限公司

申请日期: 2023/12/6

摘要文本

本公开提供了一种图文识别大模型的训练方法、装置、设备以及存储介质，涉及人工智能技术领域，具体涉及计算机视觉、深度学习、大模型等技术领域，可应用于基于人工智能的图文对话等场景。该方法包括：获取训练样本集，训练样本集中的训练样本包括样本图片、样本图片的提示词prompt、样本图片的人脸识别结果、样本图片的图片描述信息；将样本图片输入至图像处理模块，输出得到图片特征信息；将图片特征信息输入至图像文本语义对齐模块，输出得到语义特征信息；将语义特征信息、人脸识别结果以及prompt作为输入，将图片描述信息作为输出，对预先构建的大语言模型进行训练，得到图文识别大模型。

申请人信息

申请人:北京百度网讯科技有限公司
申请人地址:100085 北京市海淀区上地十街10号百度大厦2层
发明人: 北京百度网讯科技有限公司

专利详细信息

项目	内容
专利名称	图文识别大模型的训练方法、装置、设备以及存储介质
专利类型	发明申请
申请号	CN202311666538.1
申请日	2023/12/6
公告号	CN117593608A
公开日	2024/2/23
IPC主分类号	G06V10/774
权利人	北京百度网讯科技有限公司
发明人	戎康; 宋雨鑫; 刘芳龙; 张琦
地址	北京市海淀区上地十街10号百度大厦2层

专利主权项内容

1.一种图文识别大模型的训练方法，包括：获取训练样本集，其中，所述训练样本集中的训练样本包括样本图片、所述样本图片对应的提示词prompt、所述样本图片对应的人脸识别结果以及所述样本图片的图片描述信息；将所述样本图片输入至图像处理模块，输出得到所述样本图片的图片特征信息；将所述图片特征信息输入至图像文本语义对齐模块，输出得到所述样本图片的语义特征信息；将所述语义特征信息、所述人脸识别结果以及所述prompt作为输入，将所述图片描述信息作为输出，对预先构建的大语言模型进行训练，得到图文识别大模型。。马-克-数据

图文识别大模型的训练方法、装置、设备以及存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

图文识别大模型的训练方法、装置、设备以及存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种焊接管路的辅助装置

一种导轨滑块刚性疲劳测试装置及其测试方法

X射线管及其阴极冷却装置、管芯组件

双歧杆菌分离培养方法

一种用于电子级硫酸生产废液的回收处理装置

自动化全内置超导磁铁磁场强度测量装置及测量方法

热门技术领域

快速入口

专利技术资料