← 返回列表
一种面向中文文本的端到端中文实体关系联合抽取方法
摘要文本
本发明公开了一种面向中文文本的端到端中文实体关系联合抽取方法,包括优化中文预训练模型,对输入的中文文本进行编码处理,生成中文文本的文本表示;对中文文本的文本表示进行实体解码处理,得到实体BIO标注序列和上下文表示向量;采用上下文注意力机制确定上下文注意力向量;将上下文注意力向量与中文文本的文本表示拼接后进行关系编码处理,得到关系编码表示;采用双仿射注意力机制进行关系解码处理,得到实体关系抽取结果。本发明能够捕捉到词级别的交叉依赖信息,能有效提升模型准确性和鲁棒性。
申请人信息
- 申请人:成都信息工程大学
- 申请人地址:610225 四川省成都市西南航空港经济开发区学府路1段24号
- 发明人: 成都信息工程大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种面向中文文本的端到端中文实体关系联合抽取方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311629250.7 |
| 申请日 | 2023/11/30 |
| 公告号 | CN117521656A |
| 公开日 | 2024/2/6 |
| IPC主分类号 | G06F40/295 |
| 权利人 | 成都信息工程大学 |
| 发明人 | 张仕斌; 冯甲; 闫丽丽; 吕智颖; 秦智; 昌燕; 张昱程; 王戈锋; 王羽翼 |
| 地址 | 四川省成都市双流区西南航空港经济开发区学府路1段24号 |
专利主权项内容
1.一种面向中文文本的端到端中文实体关系联合抽取方法,其特征在于,包括以下步骤:S1、对输入的中文文本进行全词掩蔽处理,根据处理后的中文文本优化中文预训练模型,并利用优化后的中文预训练模型对输入的中文文本进行编码处理,生成中文文本的文本表示;S2、对中文文本的文本表示进行包括上下文特征提取和BIO序列标注的实体解码处理,得到实体BIO标注序列和上下文表示向量;S3、根据实体BIO标注序列和上下文表示向量,以及中文文本的文本表示,采用上下文注意力机制确定上下文注意力向量;S4、将上下文注意力向量与中文文本的文本表示拼接后进行关系编码处理,得到关系编码表示;S5、根据关系编码表示,采用双仿射注意力机制进行关系解码处理,得到实体关系抽取结果。 马 克 数 据 网