← 返回列表

一种基于短论元的细粒度事件信息抽取方法、装置和产品

申请号: CN202311352557.7
申请人: 北京大数据先进技术研究院
申请日期: 2023/10/19

摘要文本

本申请提供了一种基于短论元的细粒度事件信息抽取方法、装置和产品,涉及知识工程信息抽取技术领域,该方法为:利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元为事件论元中去除描述信息后的实体论元;利用短论元描述抽取模型,从所述待抽取文本中抽取得到短论元描述;所述短论元描述表示所述事件短论元的描述信息;将所述事件短论元、所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表。

专利详细信息

项目 内容
专利名称 一种基于短论元的细粒度事件信息抽取方法、装置和产品
专利类型 发明授权
申请号 CN202311352557.7
申请日 2023/10/19
公告号 CN117094397B
公开日 2024/2/6
IPC主分类号 G06N5/025
权利人 北京大数据先进技术研究院
发明人 杨国利; 王圣; 韩宏伟; 刘艺; 白晓颖
地址 北京市海淀区闵庄路3号玉泉慧谷6号楼一层01

专利主权项内容

1.一种基于短论元的细粒度事件信息抽取方法,其特征在于,所述方法包括:利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元表示事件论元中去除描述信息后的实体论元;利用短论元描述抽取模型,从所述待抽取文本中抽取得到短论元描述,确定所述短论元描述所属实体,得到所述短论元描述与实体之间的对应关系;所述短论元描述表示所述事件短论元的描述信息;将所述事件短论元、所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表;所述短论元描述抽取模型是通过如下步骤训练得到的:获取样本文本;定义所述样本文本中的样本短论元描述和样本短论元实体,所述样本短论元描述包括复合类型描述和远距离描述;所述复合类型描述表示多种描述的组合,所述远距离描述表示没有与实体连接,语义信息中用于对实体进行描述的文本信息;在所述样本文本中,标注出每一对所述样本短论元描述和所述样本短论元实体之间的对应关系;利用标注后的样本文本,对预训练模型进行训练,得到所述短论元描述抽取模型。