← 返回列表

一种多模态模型的训练方法及装置

申请号: CN202410017186.5
申请人: 支付宝(杭州)信息技术有限公司
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 一种多模态模型的训练方法及装置
专利类型 发明申请
申请号 CN202410017186.5
申请日 2024/1/4
公告号 CN117541894A
公开日 2024/2/9
IPC主分类号 G06V10/774
权利人 支付宝(杭州)信息技术有限公司
发明人 轩诗宇; 郭清沛; 杨铭
地址 浙江省杭州市西湖区西溪路556号8层B段801-11

摘要文本

本说明书实施例提供一种多模态模型的训练方法及装置,多模态模型包括编码网络及可训练的包括路由层及若干并行设置的专家网络的任务网络,该方法包括:获取编码网络处理样本图像及文本形式的任务指令得到的、包括各图像词元及各文本词元各自对应的第一词元特征的第一词元特征序列;利用第一词元特征序列,通过路由层,确定各个词元对应的包括各个专家网络相对于该词元被激活的概率的概率集合;基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;基于各个词元的第二词元特征,预测针对样本图像执行任务指令的任务结果;基于任务结果及任务指令对应的标签结果,调整任务网络。 () (来 自 )

专利主权项内容

1.一种多模态模型的训练方法,所述多模态模型包括编码网络以及可训练的任务网络,所述任务网络包括路由层,以及若干并行设置的专家网络,所述方法包括:获取所述编码网络处理样本图像以及文本形式的任务指令得到的第一词元特征序列,所述第一词元特征序列包括,各图像词元以及各文本词元各自对应的第一词元特征;利用所述第一词元特征序列,通过所述路由层,确定各个词元对应的概率集合,单个词元对应的概率集合包括,各个专家网络相对于该词元被激活的概率;基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;基于各个词元的第二词元特征,预测针对所述样本图像执行所述任务指令的任务结果;基于所述任务结果以及所述任务指令对应的标签结果,调整所述任务网络。