一种知识组织体系辅助更新方法
摘要文本
本发明公开了一种知识组织体系辅助更新方法,包括以下步骤:建设领域语料库、筛选语料、大模型指令微调、语料按相似度聚类、利用大模型的理解能力关键词标引、关键词权重计算、与已有的知识组织体系比对进一步筛选出新词、利用大模型的理解能力识别新词领域、第一类词间关系生成和第二类词间关系生成。本发明面向知识组织体系更新需求,提供更丰富多样的配置方案,以高效快速的更新知识组织体系,相比针对知识图谱的链接预测方案,本发明对图书情报领域知识组织体系更有针对性,重点在于对代表概念的新词发现和词间关系构建,强调了对真实语料库的结合和多重校验,以提高辅助更新的质量。
申请人信息
- 申请人:中国科学技术信息研究所
- 申请人地址:100038 北京市海淀区复兴路15号
- 发明人: 中国科学技术信息研究所
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种知识组织体系辅助更新方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410028647.9 |
| 申请日 | 2024/1/8 |
| 公告号 | CN117725229A |
| 公开日 | 2024/3/19 |
| IPC主分类号 | G06F16/36 |
| 权利人 | 中国科学技术信息研究所 |
| 发明人 | 张运良; 王莉军; 李琳娜; 王力; 金辉 |
| 地址 | 北京市海淀区复兴路15号 |
专利主权项内容
1.一种知识组织体系辅助更新方法,其特征在于,包括以下步骤:S100、建设领域语料库:建设领域语料库并在所述语料库中构建领域维度的多维索引;S200、筛选语料:根据知识组织体系K的最后更新时间tk和所述语料库中的特定时间tp,得到更新语料集合C;S300、大模型指令微调:选用大语言模型M,建设微调指令集合I,对选用的所述大语言模型M进行指令微调得到微调后的大语言模型Mf;S400、语料按相似度聚类:根据聚类算法对所述语料集合C进行聚类,控制聚类数量不超过20类的n类,每类分别记为C1,C2,…,Ci,…Cn;S500、利用大模型的理解能力关键词标引:根据所述大语言模型Mf和相应的关键词标引提示词对所述语料集合C中的每一篇文献做标引,得到不多于10个关键词;S600、关键词权重计算:根据TF-IDF权重算法对全部文献抽取到的所述关键词进行权重排序,与用户交互,选取用户指定数量的候选所述关键词;S700、与已有的知识组织体系比对进一步筛选出新词:将选取的用户指定数量的候选所述关键词进一步与已有的所述知识组织体系K比对,筛选出新的所述关键词,记录已有所述知识组织体系K的全部词条集合So,与之不同的新词记入新词集合Sn;S800、利用大模型的理解能力新词领域识别:根据所述大语言模型Mf和相应的所述关键词标引提示词对所述新词集合Sn中每个新词进行判断并反馈给人工,对所述新词集合Sn进行调整;S900、第一类词间关系生成和第二类词间关系生成:根据确定的所述知识组织体系K的所述新词集合Sn和对应语料的所述关键词,得到第一类词间关系生成和第二类词间关系生成。