← 返回列表

互联网数据挖掘方法、装置计算机设备及介质

申请号: CN202311843757.2
申请人: 江西合一云数据科技股份有限公司
申请日期: 2023/12/29

摘要文本

本发明提供了一种互联网数据挖掘方法、装置计算机设备及介质,其中,方法包括:通过获取数据挖掘的多个关键词,然后基于各个关键词设置多个聚类中心,将初始数据按照预设的组合方法组合为n个数据集合,确定每个数据集合的挖掘数量,然后确定挖掘初始数据,组成挖掘数据库。本发明的有益效果:保证了数据的精确度,并且还兼顾了数据的多样性,提高了用户的体验。

专利详细信息

项目 内容
专利名称 互联网数据挖掘方法、装置计算机设备及介质
专利类型 发明授权
申请号 CN202311843757.2
申请日 2023/12/29
公告号 CN117493423B
公开日 2024/3/26
IPC主分类号 G06F16/2458
权利人 江西合一云数据科技股份有限公司
发明人 余芳; 余聪
地址 江西省南昌市高新技术产业开发区紫阳大道绿地新都会紫峰大厦写字楼1408室

专利主权项内容

1.一种互联网数据挖掘方法,其特征在于,包括:获取数据挖掘的多个关键词,并基于所述多个关键词通过预设的大数据收集方法收集多个初始数据,将多个初始数据按照预设的组合方法组合为n个数据集合;其中,n为大于2的整数;基于各个关键词设置多个聚类中心,并基于各个聚类中心分别检测第k个数据集合中与各个初始数据的初始距离;其中,k为小于等于n且大于0的整数;根据各个初始距离的大小,选取初始距离最小的初始数据作为目标初始数据;在第k个数据集合中,计算其余初始数据与所述目标初始数据的数据距离,并将数据距离求取平均值,得到目标距离;基于目标距离计算第k个数据集合中的挖掘数量;其中,所述挖掘数量的计算公式为;其中,/>表示第i个聚类中心对应的目标距离,/>表示第i+1个聚类中心对应的目标距离,/>表示第k个数据集合对应的初始数据的数量,/>为预设的常数,/>表示预设的常数,/>表示第i个聚类中心与第i+1个聚类中心的距离,/>表示所述挖掘数量,/>表示向下取整;基于多个关键词生成第一多维向量,并将第k个数据集合中的各个初始数据进行向量化,以得到多个第二多维向量;其中,第一多维向量与所述第二多维向量的维数相同;根据预设的相似度计算方法计算各个第二多维向量与第一多维向量的相似度,并根据相似度大小选取所述挖掘数量的挖掘初始数据;根据各个数据集合对应的挖掘初始数据以组成挖掘数据库。 来自: