文本公告中触发词的抽取方法及系统
摘要文本
本发明涉及一种文本公告中触发词的抽取方法及系统,该方法包括步骤:步骤1,通过标点符号对文本公告的整体内容进行分句,得到若干个句子;步骤2,将每个句子划分为若干个词,并将若干个词与预建立的词典中的触发词进行匹配,依序将匹配成功的同一个词转换成带不同序号标识的相同符号;步骤3,将经步骤2处理后的每一个句子输入触发词抽取模型中,输出得到每个词的为触发词的概率值,概率值大于等于0.5的词即为触发词。通过本发明方法及系统可以较为准确地抽取出事件的触发词,且适应性光,可应用于各种事件触发词发抽取。
申请人信息
- 申请人:成都数联铭品科技有限公司
- 申请人地址:610015 四川省成都市自由贸易试验区成都高新区天府大道中段199号1栋1单元21楼1-6号
- 发明人: 成都数联铭品科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 文本公告中触发词的抽取方法及系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN201811295979.4 |
| 申请日 | 2018年11月1日 |
| 公告号 | CN109299470B |
| 公开日 | 2024年2月9日 |
| IPC主分类号 | G06F40/242 |
| 权利人 | 成都数联铭品科技有限公司 |
| 发明人 | 罗镇权; 练睿; 罗强; 唐远洋; 刘世林; 丁国栋; 曾途 |
| 地址 | 四川省成都市自由贸易试验区成都高新区天府大道北段966号9栋-1层1号 |
专利主权项内容
1.一种文本公告中触发词的抽取方法,其特征在于,包括以下步骤:步骤1,通过标点符号对文本公告的整体内容进行分句,得到若干个句子;步骤2,将每个句子划分为若干个词,并将若干个词与预建立的词典中的触发词进行匹配,依序将匹配成功的同一个词转换成带不同序号标识的相同符号;步骤3,将经步骤2处理后的每一个句子输入触发词抽取模型中,输出得到每个词为触发词的概率值,概率值大于等于阈值的词即为触发词;触发词抽取模型通过门控式基于注意力循环神经网络捕捉关键词和句子的交互信息;触发词抽取模型采用自匹配注意力机制捕捉同一句子内部长距离词距的信息;在将每个句子划分为若干个词之前,还包括步骤:基于预先设立的若干个关键词,去掉不包含任一个关键词的句子;此时,所述将每个句子划分为若干个词是指,将保留下来的每个句子划分为若干个词;所述步骤2中,是将关键词和句子分词后分别用词向量和字向量映射成向量输入至触发词抽取模型中;抽取模型从上到下包括4层结构:第一层Embed层,分别使用了词和字的向量表示关键词和句子,通过一个双向GRU网络,将字向量从批长、句长、词长、字向量的四个维度,转成词向量的批长、句长、词向量的三维,并与词向量拼接作为最终的Embeding;第二层Encoding层,使用双向GRU来编码关键词和句子的Embeding,用一个双向RNN来分别产生关键词和句子新的表示 和/>; 其中所用的公式分别为:
;第三层Interaction层,为双Interaction层架构,第一Interaction层负责捕捉句子和关键词之间的交互信息;第二个Interaction层负责捕捉句子内部各词之间的交互信息;其中,第一个Interaction层的公式:当是整个关键词(/>)注意力集中向量,句子和关键词的重要程度的门为:其中,第二个Interaction层的公式:当是整个句子(/>)注意力集中向量
增加一个门进行控制;使用注意力来比较同一段落中相距较远的词;还包括一层Trigger word Prediction,通过sigmoid判断当前词是否为触发词。