← 返回列表

一种基于门控主题模型的无监督关键词抽取方法

申请号: CN202311341725.2
申请人: 北京计算机技术及应用研究所
申请日期: 2023/10/17

摘要文本

本发明涉及一种基于门控主题模型的无监督关键词抽取方法,属于人工智能、大数据、自然语言处理领域。本发明提出了一种语义自适应的文档语义表示方法,在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题,并采用门控机制对文档主题进行独立加权,使具有较高语义丰富度的文档被分配相对更多的主题;利用文档主题信息设计了一种新的关键词评分算法,同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷,避免了对文本核心主题的过度关注,从而提高了所抽取关键词的多样性。

专利详细信息

项目 内容
专利名称 一种基于门控主题模型的无监督关键词抽取方法
专利类型 发明申请
申请号 CN202311341725.2
申请日 2023/10/17
公告号 CN117390157A
公开日 2024/1/12
IPC主分类号 G06F16/332
权利人 北京计算机技术及应用研究所
发明人 刘琦; 杨雨婷; 余增文; 贺垚; 范昕煜; 田宗凯; 赵勤博
地址 北京市海淀区永定路51号

专利主权项内容

1.一种基于门控主题模型的无监督关键词抽取方法,其特征在于,该方法包括如下步骤:步骤一:分词及词性标注在对输入文本编码之前,需要先对原始的自然语言文本数据进行必要的预处理;步骤二:名词短语抽取基于POS标注结果,只保留了原文本中的名词性短语作为候选关键词;步骤三:文档编码及候选词表示基于GloVe嵌入对文档单词和候选关键词进行编码以获取词嵌入表示;步骤四:主题建模S41、首先,对于语料库中任意一篇文档d,利用步骤三中得到的词嵌入构造d的上下文向量表示z;dS42、从主题建模的角度出发,文档表示为主题嵌入的加权求和,进而将文档上下文表示z重构为另一种表示主题表示形式dS43、在得到了文档上下文向量表示z及其主题表示r之后,采用对比学习策略对模型参数进行优化,对比学习的目标为最小化损失函数ddS44、以最小化为目标对主题模型进行训练,在整个语料库上抽取一组主题表示M={m, m, …, m},并确定每篇输入文档关于这K个主题的权重向量p={w, w, …, w};T12Kd12K步骤五:关键词抽取对于每个候选词np,计算得到其关于K个主题的得分,np的最终得分为这K个得分的最大值,根据最终得分对所有候选词进行排序,并抽取排名靠前的N个候选词作为文档d的关键词。ii