基于事件自动抽取的矿山事件知识图谱构建方法及装置
申请人信息
- 申请人:临沂大学
- 申请人地址:276000 山东省临沂市兰山区工业大道北段西侧
- 发明人: 临沂大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311786525.8 |
| 申请日 | 2023/12/25 |
| 公告号 | CN117454987B |
| 公开日 | 2024/3/19 |
| IPC主分类号 | G06N5/025 |
| 权利人 | 临沂大学 |
| 发明人 | 傅德谦; 岳正元; 李章良; 乔中力 |
| 地址 | 山东省临沂市兰山区双岭路中段 |
摘要文本
本说明书实施例公开了一种基于事件自动抽取的矿山事件知识图谱构建方法及装置,涉及知识图谱技术领域,用于解决现有事件抽取准确率低的问题,方法包括:基于众包平台对矿山事故事件文本数据进行半自动化标注,获得标注文本数据集;基于BERT预训练的动态多池化卷积神经网络模型,获取标注文本数据集中各数据的词汇级信息以标识获得词汇级特征向量;根据动态多池化卷积神经网络模型捕获句子级信息以标识获得句子级特征向量,拼接词汇级特征向量与句子级特征向量获得特征向量,并输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果;对矿山事故事件抽取结果进行事件标识,以对矿山事故事件抽取结果进行处理进而映射获得矿山事件知识图谱。
专利主权项内容
1.一种基于事件自动抽取的矿山事件知识图谱构建方法,其特征在于,所述方法包括:基于公开新闻网站爬取矿山事故事件文本数据,对所述矿山事故事件文本数据进行预处理,以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集;基于BERT预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量;根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量;将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果;对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱;对所述矿山事故事件文本数据进行预处理,具体包括:获取各所述矿山事故事件文本数据的数据格式,以基于所述数据格式将所述矿山事故事件文本数据划分到不同的文本数据集;基于所述BERT预训练的动态多池化卷积神经网络模型的输入格式确定所述文本数据集中的待转换数据集,以对所述待转换数据集进行数据转换,获得符合格式的第一文本数据;对各所述第一文本数据基于摘要算法进行数据去重处理,获得去重后的第二文本数据;确定所述第二文本数据中的中文字符占比,若确定所述中文字符占比小于预设占比阈值,则对所述第二文本数据进行删除,获得处理后的矿山事故事件文本数据;所述对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集,具体包括:获取各所述处理后的矿山事故事件文本数据的摘要数据,以基于自动化算法确定所述摘要数据所对应的自动化标注;其中,所述自动化标注包括:事件类型标注、事件元素标注;将所述各所述处理后的矿山事故事件文本数据与所述对应的自动化标注上传到所述众包平台;基于所述众包平台的人工经验对各所述处理后的矿山事故事件文本数据所对应的自动化标注进行校验,获得矿山事故事件的标注文本数据集;将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果,具体包括:确定第一softmax分类器中事件触发词的分类计算公式;其中,所述分类计算公式为:,/>表示转移矩阵,/>表示整个网络的最终输出,V表示所述特征向量,b表示偏移量;基于所述分类计算公式确定所述特征向量的分类结果,并基于softmax函数计算当前待分类的候选事件触发词分类结果中,概率最高的事件类型为所述矿山事故事件的事件分类结果;基于第二softmax分类器对所述事件分类结果的事件元素进行分类,确定所述事件分类结果所对应的事件元素角色,为所述矿山事故事件的元素分类结果;根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果;所述根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果之后,所述方法还包括:基于CRF层确定所述矿山事故事件抽取结果的预测输出标签;对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,具体包括:基于所述矿山事故事件抽取结果进行事件标识,以获取所述矿山事故事件的事件真实性标识与事件共指标识;若基于所述事件真实性标识确定所述特征向量所对应的矿山事故事件为非真实事件,则对所述矿山事故事件抽取结果中该矿山事故事件进行删除;若基于所述事件共指性标识,确定特征向量所对应的矿山事故事件为同一事故事件,则对所述特征向量所对应的处理后的矿山事故事件文本数据进行数据合并。