基于反馈强化的多模态知识生成方法及装置
申请人信息
- 申请人:哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
- 申请人地址:518055 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区
- 发明人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于反馈强化的多模态知识生成方法及装置 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311286288.9 |
| 申请日 | 2023/10/8 |
| 公告号 | CN117035074B |
| 公开日 | 2024/2/13 |
| IPC主分类号 | G06N5/02 |
| 权利人 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) |
| 发明人 | 漆舒汉; 曹正英; 张加佳; 王轩 |
| 地址 | 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区 |
摘要文本
哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)取得“一种透气窗帘布”专利技术,本发明公开了一种基于反馈强化的多模态知识生成方法及装置,包括:构建多模态模型,在多模态知识生成任务中将人类反馈引入所述多模态模型,形成的监督数据用于训练预先设立的奖励回报模型;将所述监督数据输入奖励回报模型进行训练,使得奖励回报模型从所述监督数据中学习到人类的理解;利用内外探索相结合的强化学习方法微调所述多模态模型,使得多模态模型能够学习到人类偏好,生成更自然的知识;本发明具有人类反馈知识的强化学习方法应用于多模态知识生成任务中,解决了多模态知识生成任务缺乏人类反馈监督的不足,并引入基于内外探索相结合的强化学习微调技术,有效缓解多奖励稀疏问题。
专利主权项内容
1.基于反馈强化的多模态知识生成方法,其特征在于,包括下述步骤:构建多模态模型,所述多模态模型的输入为文本信息和图像信息;在多模态知识生成任务中将人类反馈引入所述多模态模型,所述人类反馈为基于排序的人工打分机制,即为多模态模型的输出结果排序打分并进行标注,形成的监督数据用于训练预先设立的奖励回报模型;将所述监督数据输入奖励回报模型进行训练,使得奖励回报模型从所述监督数据中学习到人类的理解,进而学习到符合人类需求的奖励信号用于训练更优的奖励回报模型;基于多模态排序的排序损失、模态间的分布损失及对比学习的相似度损失更新所述奖励回报模型;所述多模态排序的排序损失用于表征奖励回报模型对于多模态模型输出的k个答案在排序打分中靠前的答案给出更高的分数值;所述对比学习的相似度损失用于表征生成的同一组图-文多模态数据之间的相似性;所述模态间的分布损失用于表征多模态模型的多个输出在标注排序中位序的一致性;利用内外探索相结合的强化学习方法微调所述多模态模型,使得多模态模型能够学习到人类偏好,生成更自然的知识;所述内外探索具体为:对于图像信息,使用内在奖励对于图像的生成进行激励,对于文本信息则采用样本层面的外在奖励,使得文本信息匹配图像信息;所述强化学习方法是在每一步生成过程中,根据当前的状态和策略,选择一个动作并执行,然后根据执行后的结果获得一个奖励信号,所述奖励信号用于调整多模态模型的策略。