← 返回列表
一种面向定中结构的分层级中文实体关系抽取方法及系统
申请人信息
- 申请人:江西科技师范大学
- 申请人地址:330000 江西省南昌市红谷滩新区红角洲学府大道589号
- 发明人: 江西科技师范大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种面向定中结构的分层级中文实体关系抽取方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410065908.4 |
| 申请日 | 2024/1/17 |
| 公告号 | CN117609518A |
| 公开日 | 2024/2/27 |
| IPC主分类号 | G06F16/36 |
| 权利人 | 江西科技师范大学 |
| 发明人 | 甘丽新; 涂伟; 陈敏; 曹瑛; 毕文霞; 饶志华; 刘伟凯; 刘斌; 程琳; 陈英玮; 李蔚洪 |
| 地址 | 江西省南昌市红谷滩新区红角洲学府大道589号 |
摘要文本
本发明提出一种面向定中结构的分层级中文实体关系抽取方法及系统,该方法包括:从目标平台获取若干份人文数据,对预处理后的人文数据中包含的每条句子进行实体识别,对数据集中的每条句子进行定中结构识别,若定中结构中存在实体,则将定中结构中的名词进行词性标注,将一级实体替换句子中的定中结构,以重新组成新的句子,并对新的句子进行特征提取,将特征提取结果输入到支持向量机中进行关系抽取,得到隐式实体关系。本发明能够解决传统技术中在对复杂长句进行实体关系抽取时存在的抽取精确率较低以及抽取效果较差的问题。
专利主权项内容
1.一种面向定中结构的分层级中文实体关系抽取方法,应用于自然语言处理平台,其特征在于,所述方法包括:从目标平台获取若干份人文数据,并对所述人文数据进行预处理,所述预处理包括分词处理和词性标注处理;对预处理后的人文数据中包含的每条句子进行实体识别,以得到每条句子所包含的任一分词以及与所述分词一一对应的实体,并筛选出至少存在两个实体的句子构成数据集;对所述数据集中的每条句子进行定中结构识别,以将句子中存在头尾相连关系以及包含预设字的部分作为定中结构,并判断所述定中结构中是否存在实体;若所述定中结构中存在实体,则将所述定中结构中的名词进行词性标注,词性标注结果包括修饰词语和被修饰词语,并根据所述词性标注结果将实体定义为一级实体和/或二级实体;将一级实体替换句子中的定中结构,以重新组成新的句子,并对所述新的句子进行一层级特征提取,并对所述定中结构中含有所述二级实体的片段进行二层级特征提取;将一层级特征提取和二层级特征提取结果输入到支持向量机中进行关系抽取,得到隐式实体关系。