一种基于门控主题模型的无监督关键词抽取方法
摘要文本
本发明涉及一种基于门控主题模型的无监督关键词抽取方法,属于人工智能、大数据、自然语言处理领域。本发明提出了一种语义自适应的文档语义表示方法,在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题,并采用门控机制对文档主题进行独立加权,使具有较高语义丰富度的文档被分配相对更多的主题;利用文档主题信息设计了一种新的关键词评分算法,同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷,避免了对文本核心主题的过度关注,从而提高了所抽取关键词的多样性。
申请人信息
- 申请人:北京计算机技术及应用研究所
- 申请人地址:100854 北京市海淀区永定路51号
- 发明人: 北京计算机技术及应用研究所
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于门控主题模型的无监督关键词抽取方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311341725.2 |
| 申请日 | 2023/10/17 |
| 公告号 | CN117390157A |
| 公开日 | 2024/1/12 |
| IPC主分类号 | G06F16/332 |
| 权利人 | 北京计算机技术及应用研究所 |
| 发明人 | 刘琦; 杨雨婷; 余增文; 贺垚; 范昕煜; 田宗凯; 赵勤博 |
| 地址 | 北京市海淀区永定路51号 |
专利主权项内容
1.一种基于门控主题模型的无监督关键词抽取方法,其特征在于,该方法包括如下步骤:步骤一:分词及词性标注在对输入文本编码之前,需要先对原始的自然语言文本数据进行必要的预处理;步骤二:名词短语抽取基于POS标注结果,只保留了原文本中的名词性短语作为候选关键词;步骤三:文档编码及候选词表示基于GloVe嵌入对文档单词和候选关键词进行编码以获取词嵌入表示;步骤四:主题建模S41、首先,对于语料库中任意一篇文档d,利用步骤三中得到的词嵌入构造d的上下文向量表示z;dS42、从主题建模的角度出发,文档表示为主题嵌入的加权求和,进而将文档上下文表示z重构为另一种表示主题表示形式dS43、在得到了文档上下文向量表示z及其主题表示r之后,采用对比学习策略对模型参数进行优化,对比学习的目标为最小化损失函数ddS44、以最小化为目标对主题模型进行训练,在整个语料库上抽取一组主题表示M={m, m, …, m},并确定每篇输入文档关于这K个主题的权重向量p={w, w, …, w};T12Kd12K步骤五:关键词抽取对于每个候选词np,计算得到其关于K个主题的得分,np的最终得分为这K个得分的最大值,根据最终得分对所有候选词进行排序,并抽取排名靠前的N个候选词作为文档d的关键词。ii