← 返回列表

指令微调多模态大模型的图像细粒度描述方法及系统

申请号: CN202311273241.9
申请人: 中国科学院自动化研究所; 武汉人工智能研究院
申请日期: 2023/9/28

摘要文本

本发明提供一种指令微调多模态大模型的图像细粒度描述方法及系统,涉及计算机技术领域,方法包括:获取目标图像对应的第一向量序列,目标图像对应的第一向量序列是通过对目标图像对应的第二向量序列进行编码后得到的,目标图像对应的第二向量序列是根据从所述目标图像中提取到的高级语义信息得到的;根据第一向量序列和第一提示模板,获取目标图像的细粒度描述文本,第一提示模板用于提供对目标图像进行细粒度描述所需的指令信息。本发明能够基于少量对图像进行细粒度描述所需的指令信息及承载图像的高级语义信息的向量序列,精准地识别和描述图像中重要目标的属性和特征,实现对图像的细粒度描述,提供更丰富及更具体的图像信息。 搜索马 克 数 据 网

专利详细信息

项目 内容
专利名称 指令微调多模态大模型的图像细粒度描述方法及系统
专利类型 发明申请
申请号 CN202311273241.9
申请日 2023/9/28
公告号 CN117423108A
公开日 2024/1/19
IPC主分类号 G06V20/70
权利人 中国科学院自动化研究所; 武汉人工智能研究院
发明人 朱贵波; 李宗树; 吴凌翔; 易东; 刘智威; 葛国敬; 王金桥
地址 北京市海淀区中关村东路95号; 湖北省武汉市东湖新技术开发区高新大道666号生物产业(九峰)创新基地B14栋10楼

专利主权项内容

1.一种指令微调多模态大模型的图像细粒度描述方法,其特征在于,包括:获取目标图像对应的第一向量序列,所述目标图像对应的第一向量序列是通过对所述目标图像对应的第二向量序列进行编码后得到的,所述目标图像对应的第二向量序列是根据从所述目标图像中提取到的高级语义信息得到的;根据所述第一向量序列和第一提示模板,获取所述目标图像的细粒度描述文本,所述第一提示模板用于提供对所述目标图像进行细粒度描述所需的指令信息。