一种基于门控主题模型的无监督关键词抽取方法

申请号: CN202311341725.2

申请人: 北京计算机技术及应用研究所

申请日期: 2023/10/17

摘要文本

本发明涉及一种基于门控主题模型的无监督关键词抽取方法，属于人工智能、大数据、自然语言处理领域。本发明提出了一种语义自适应的文档语义表示方法，在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题，并采用门控机制对文档主题进行独立加权，使具有较高语义丰富度的文档被分配相对更多的主题；利用文档主题信息设计了一种新的关键词评分算法，同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷，避免了对文本核心主题的过度关注，从而提高了所抽取关键词的多样性。

申请人信息

申请人:北京计算机技术及应用研究所
申请人地址:100854 北京市海淀区永定路51号
发明人: 北京计算机技术及应用研究所

专利详细信息

项目	内容
专利名称	一种基于门控主题模型的无监督关键词抽取方法
专利类型	发明申请
申请号	CN202311341725.2
申请日	2023/10/17
公告号	CN117390157A
公开日	2024/1/12
IPC主分类号	G06F16/332
权利人	北京计算机技术及应用研究所
发明人	刘琦; 杨雨婷; 余增文; 贺垚; 范昕煜; 田宗凯; 赵勤博
地址	北京市海淀区永定路51号

专利主权项内容

1.一种基于门控主题模型的无监督关键词抽取方法，其特征在于，该方法包括如下步骤：步骤一：分词及词性标注在对输入文本编码之前，需要先对原始的自然语言文本数据进行必要的预处理；步骤二：名词短语抽取基于POS标注结果，只保留了原文本中的名词性短语作为候选关键词；步骤三：文档编码及候选词表示基于GloVe嵌入对文档单词和候选关键词进行编码以获取词嵌入表示；步骤四：主题建模S41、首先，对于语料库中任意一篇文档d，利用步骤三中得到的词嵌入构造d的上下文向量表示z；dS42、从主题建模的角度出发，文档表示为主题嵌入的加权求和，进而将文档上下文表示z重构为另一种表示主题表示形式dS43、在得到了文档上下文向量表示z及其主题表示r之后，采用对比学习策略对模型参数进行优化，对比学习的目标为最小化损失函数ddS44、以最小化为目标对主题模型进行训练，在整个语料库上抽取一组主题表示M＝{m, m, …, m}，并确定每篇输入文档关于这K个主题的权重向量p＝{w, w, …, w}；T12Kd12K步骤五：关键词抽取对于每个候选词np，计算得到其关于K个主题的得分，np的最终得分为这K个得分的最大值，根据最终得分对所有候选词进行排序，并抽取排名靠前的N个候选词作为文档d的关键词。ii

一种基于门控主题模型的无监督关键词抽取方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

一种基于门控主题模型的无监督关键词抽取方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种高频变压器串并联倍流输出的整流电路

沙发(HSN-6053)

时延对齐方法及装置

一种高脱色竹制活性碳及其制备工艺

床(HSN-B016)

座椅部件(GF-82733H)

热门技术领域

快速入口

专利技术资料

特别鸣谢