← 返回列表

图文识别大模型的训练方法、装置、设备以及存储介质

申请号: CN202311666538.1
申请人: 北京百度网讯科技有限公司
申请日期: 2023/12/6

摘要文本

本公开提供了一种图文识别大模型的训练方法、装置、设备以及存储介质,涉及人工智能技术领域,具体涉及计算机视觉、深度学习、大模型等技术领域,可应用于基于人工智能的图文对话等场景。该方法包括:获取训练样本集,训练样本集中的训练样本包括样本图片、样本图片的提示词prompt、样本图片的人脸识别结果、样本图片的图片描述信息;将样本图片输入至图像处理模块,输出得到图片特征信息;将图片特征信息输入至图像文本语义对齐模块,输出得到语义特征信息;将语义特征信息、人脸识别结果以及prompt作为输入,将图片描述信息作为输出,对预先构建的大语言模型进行训练,得到图文识别大模型。

专利详细信息

项目 内容
专利名称 图文识别大模型的训练方法、装置、设备以及存储介质
专利类型 发明申请
申请号 CN202311666538.1
申请日 2023/12/6
公告号 CN117593608A
公开日 2024/2/23
IPC主分类号 G06V10/774
权利人 北京百度网讯科技有限公司
发明人 戎康; 宋雨鑫; 刘芳龙; 张琦
地址 北京市海淀区上地十街10号百度大厦2层

专利主权项内容

1.一种图文识别大模型的训练方法,包括:获取训练样本集,其中,所述训练样本集中的训练样本包括样本图片、所述样本图片对应的提示词prompt、所述样本图片对应的人脸识别结果以及所述样本图片的图片描述信息;将所述样本图片输入至图像处理模块,输出得到所述样本图片的图片特征信息;将所述图片特征信息输入至图像文本语义对齐模块,输出得到所述样本图片的语义特征信息;将所述语义特征信息、所述人脸识别结果以及所述prompt作为输入,将所述图片描述信息作为输出,对预先构建的大语言模型进行训练,得到图文识别大模型。。马-克-数据