基于思维链的跨模态问答的处理方法和装置
摘要文本
本公开涉及一种基于思维链的跨模态问答的处理方法和装置,上述处理方法包括:获取目标问答场景下的语音问题和对应的上下文文本;基于预训练好的思维链生成模型,对上述语音问题和上述上下文文本进行跨模态学习,得到用于表示上述语音问题的解决思路的思维链;将上述上下文文本和上述思维链进行拼接,得到目标上下文文本;基于预训练好的答案生成模型,对上述语音问题和上述目标上下文文本进行跨模态学习,得到上述语音问题对应的答案。支持跨模态问答并能先学习生成思维链,学习对问题进行思考的过程,之后基于思维链学习到答案,不仅有助于提升答案的正确率,也能有效提升答案的可解释性。
申请人信息
- 申请人:中国科学院自动化研究所
- 申请人地址:100190 北京市海淀区中关村东路95号
- 发明人: 中国科学院自动化研究所
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于思维链的跨模态问答的处理方法和装置 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311795864.2 |
| 申请日 | 2023/12/25 |
| 公告号 | CN117453898B |
| 公开日 | 2024/3/22 |
| IPC主分类号 | G06F16/332 |
| 权利人 | 中国科学院自动化研究所 |
| 发明人 | 易江燕; 顾浩; 陶建华 |
| 地址 | 北京市海淀区中关村东路95号 |
专利主权项内容
1.一种基于思维链的跨模态问答的处理方法,其特征在于,包括:获取目标问答场景下的语音问题和对应的上下文文本;基于预训练好的思维链生成模型,对所述语音问题和所述上下文文本进行跨模态学习,得到用于表示所述语音问题的解决思路的思维链;将所述上下文文本和所述思维链进行拼接,得到目标上下文文本;基于预训练好的答案生成模型,对所述语音问题和所述目标上下文文本进行跨模态学习,得到所述语音问题对应的答案;其中,所述思维链生成模型包括:第一文本编码模块,用于对输入的上下文文本进行编码,得到上下文文本表示向量;第一语音编码模块,用于对输入的语音问题进行编码,得到语音问题表示向量;第一跨模态学习模块,用于基于注意力机制,对所述上下文文本表示向量和所述语音问题表示向量进行跨模态特征学习,得到文本跨模态向量和语音跨模态向量;思维链学习模块,用于基于所述文本跨模态向量和所述语音跨模态向量进行思维链自回归学习,得到用于表示输入的语音问题的解决思路的思维链;所述思维链的产生过程是自回归式的,具体过程表示如下:
,其中,Thought表示思维链;p( | )表示条件概率,表示序号为i的思维链词素/>是通过序号小于i的思维链词素/>进行预测得到的;/>表示文本跨模态向量;表示语音跨模态向量。