← 返回列表

基于自然语言处理的知识库自动构建方法

申请号: CN202410072571.X
申请人: 卓世未来(天津)科技有限公司
申请日期: 2024/1/18

摘要文本

本发明涉及数据处理技术领域,提出了基于自然语言处理的知识库自动构建方法,包括:获取工艺知识分类数据集;根据工艺知识分类数据集中每个元素的语义特征构建语义突出对比系数;根据语义突出对比系数获取语义突出对比序列;根据工艺知识分类数据集中每个元素及其对应的语义突出对比序列计算语义突出近邻系数;根据语义突出近邻系数获取语义近邻分析样本集合;根据语义近邻分析样本集合获取共享近邻样本集合;根据共享近邻样本集合获取语义近邻相似距离;基于语义近邻相似距离采用层次聚类算法获取工艺知识分类数据集的聚类结果,根据所述聚类结果构建工艺知识库。本发明通过语义近邻相似距离对数据进行聚类分析,提高构建工艺知识库的精度。

专利详细信息

项目 内容
专利名称 基于自然语言处理的知识库自动构建方法
专利类型 发明申请
申请号 CN202410072571.X
申请日 2024/1/18
公告号 CN117592562A
公开日 2024/2/23
IPC主分类号 G06N5/022
权利人 卓世未来(天津)科技有限公司
发明人 屠静; 赵策; 王亚; 张玥; 雷媛媛; 孙岩; 潘亮亮; 刘岩
地址 天津市武清区武清开发区福源道北侧创业总部基地C02号楼313室33号

专利主权项内容

1.基于自然语言处理的知识库自动构建方法,其特征在于,该方法包括以下步骤:获取工艺知识数据集;根据工艺知识数据集获取工艺知识分类数据集;根据工艺知识分类数据集的每个元素中不同分词之间的语义特征关系计算所述每个元素中每个分词的语义突出对比系数;根据工艺知识分类数据的每个元素中分词的语义突出对比系数获取所述每个元素的语义突出对比序列;根据工艺知识分类数据集的每个元素及其对应的语义突出对比序列获取所述每个元素的语义突出近邻系数;根据工艺知识分类数据集的每个元素的语义突出近邻系数获取所述每个元素的语义近邻分析样本集合;根据工艺知识分类数据集的每个元素的语义近邻分析样本集合获取工艺知识分类数据集的不同元素之间的共享近邻样本集;根据工艺知识分类数据集的不同元素之间的共享近邻样本集获取所述不同元素之间的语义近邻相似距离;基于语义近邻相似距离采用层次聚类算法获取工艺知识分类数据集的聚类结果;根据工艺知识分类数据集的聚类结果构建工艺知识库。 马 克 数 据 网