一种结合组合范畴语法和多任务学习的关系抽取方法
摘要文本
本发明涉及关系抽取技术领域,公开了一种结合组合范畴语法和多任务学习的关系抽取方法,在给定文本以及两个实体的条件下,识别出关系标签;包括:利用编码器提取文本的文本特征:对文本特征进行词汇范畴标签解码,预测得到词汇范畴标签;对实体和处理后的文本特征应用注意力机制,得到强化实体表示;将强化实体表示输入到分类器,得到关系标签。本发明利用组合范畴语法为文本理解提供句法和语义知识,提升了对实体之间的关系检测能力;通过多任务学习的机制,从词汇范畴标签的解码过程中学习组合范畴语法信息,从而指导注意力机制区分关系抽取中的重要词汇,强化对文本和实体的表示学习,进一步提升了关系抽取的质量。。来自:马 克 团 队
申请人信息
- 申请人:中国科学技术大学
- 申请人地址:230026 安徽省合肥市包河区金寨路96号
- 发明人: 中国科学技术大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种结合组合范畴语法和多任务学习的关系抽取方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410090092.0 |
| 申请日 | 2024/1/23 |
| 公告号 | CN117610562A |
| 公开日 | 2024/2/27 |
| IPC主分类号 | G06F40/289 |
| 权利人 | 中国科学技术大学 |
| 发明人 | 宋彦; 田元贺; 张勇东 |
| 地址 | 安徽省合肥市包河区金寨路96号 |
专利主权项内容
1.一种结合组合范畴语法和多任务学习的关系抽取方法,将给定文本以及两个实体输入到完成训练的关系抽取模型,识别出关系标签/>;实体/>和实体/>统称为实体/>;关系抽取模型的训练过程具体包括以下步骤:步骤一,利用编码器提取文本的文本特征:
;其中,为编码器,/>表示文本/>第/>个词/>的文本特征,/>表示文本/>中词的总数量;步骤二,对文本特征进行词汇范畴标签解码,预测得到词汇范畴标签,具体包括以下步骤:S21,通过多层感知机神经网络处理,得到处理后的文本特征/>:;其中,/>表示多层感知机神经网络;S22,通过可训练矩阵和偏置向量/>,将/>映射到词汇范畴标签解码输出空间,得到含有组合范畴语法信息的特征向量/>:/>;S23,将输入到/>分类器,预测得到词汇范畴标签/>:/>;表示/>分类器;S24,通过比较预测的词汇范畴标签和对应的真实标签/>,计算词汇范畴标签预测损失/>:/>;/>表示交叉熵损失,/>表示批处理;步骤三,对实体和处理后的文本特征/>应用注意力机制,得到强化实体表示;步骤四,将实体的强化实体表示/>统一记为强化实体表示/>,将强化实体表示/>输入到/>分类器,得到关系标签/>:/>;步骤五,计算关系预测损失:/>,/>表示真实标签;通过词汇范畴标签预测损失和关系预测损失/>计算总体损失/>:/>;基于总体损失和反向传播算法不断更新关系抽取模型的参数,直至关系抽取模型收敛或者达到设定的停止条件。