← 返回列表

一种数据要素需求挖掘方法

申请号: CN202311727759.5
申请人: 四川易利数字城市科技有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种数据要素需求挖掘方法
专利类型 发明授权
申请号 CN202311727759.5
申请日 2023/12/15
公告号 CN117407835B
公开日 2024/3/12
IPC主分类号 G06F18/26
权利人 四川易利数字城市科技有限公司
发明人 徐锴; 彭真; 曹晔; 漆加丽; 梁晓蓉; 张婷
地址 四川省成都市青羊区金盾路52号23层C座

摘要文本

本发明公开了一种数据要素需求挖掘方法,属于数据要素需求挖掘技术领域,包括以下步骤:定义所有行业语料库以及数据要素语料库;采用BIOES法分别对所有行业语料库以及数据要素语料库进行标注;根据已标注的语料库训练隐尔马可夫模型;根据维特比算法,使用隐尔马可夫模型分别提取行业数据文本和数据要素文本中的命名实体关键字,得到命名实体关键字集合;生成数据要素关键字向量与行业关键字向量;计算数据要素关键字向量与行业关键字向量的匹配相似度,完成数据要素需求挖掘。本发明解决了现有技术无法全面、精准挖掘和分析数据要素需求,也无法对数据要素需求的主体进行分析的问题。。来源:专利查询网

专利主权项内容

1.一种数据要素需求挖掘方法,其特征在于,包括以下步骤:S1、整理行业数据文本和数据要素文本,并定义所有行业语料库以及数据要素语料库;S2、采用BIOES法分别对所有行业语料库以及数据要素语料库进行标注;S3、根据已标注的语料库训练隐尔马可夫模型;S4、根据维特比算法,使用隐尔马可夫模型分别提取行业数据文本和数据要素文本中的命名实体关键字,得到命名实体关键字集合;S5、处理命名实体关键字集合中的信息,生成数据要素关键字向量与行业关键字向量;S6、采用余弦相似度计算数据要素关键字向量与行业关键字向量的匹配相似度,得到数据要素与行业用户需求的匹配度,完成数据要素需求挖掘;所述S5的具体步骤为:S51、使用TF-IDF算法计算行业关键字集合WA中的每个元素中行业关键字的TF-IDF值;S52、使用TF-IDF算法计算数据要素关键字集合WB中的每个元素中数据要素关键字的TF-IDF值;S53、根据命名实体关键字集合AllKeys,生成第m条数据要素对应的数据要素关键字向量/>,并将数据要素关键字向量/>归一化,变为单位向量;S54、根据命名实体关键字集合AllKeys,生成第n个行业对应的行业关键字向量/>,并将行业关键字向量/>归一化,变为单位向量;所述S51中行业关键字的TF-IDF值的计算公式为:其中,表示行业关键字在所有行业中出现的普遍程度,/>表示所有行业语料库中的行业数据文本总数,/>表示包含行业关键字/>的文本数目,/>表示第/>个行业数据文本,/>表示行业关键字的TF-IDF值,/>表示行业关键字在某个行业数据文本中出现的频率;所述S52中数据要素关键字的TF-IDF值的计算公式为:其中,表示数据要素关键字在所有数据要素中出现的普遍程度,/>表示数据要素语料库中的数据要素文本总数,/>表示包含数据要素关键字/>的文本数目,/>表示第/>个数据要素文本,/>表示数据要素关键字的TF-IDF值,/>表示数据要素关键字在某个数据要素文本中出现的频率。