← 返回列表

一种用于集群的标签纠正方法

申请号: CN202311630041.4
申请人: 太极计算机股份有限公司
申请日期: 2023/12/1

摘要文本

本发明提供了一种用于集群的标签纠正方法,属于标签纠正技术领域,包括:对每个主集群进行无监督的特征选择得到每个主集群所对应的第一多维度标签;创建元集群,获取每个元集群中的元簇,并对第一多维度标签进行降维处理,得到每个元集群第二多维度标签;获取待分配样本的样本特征信息和每个待分配样本的样本特征信息与每个元簇的相似度,并将每个待分配样本分配至相似度最高的元簇中得到最终簇;获取最终簇特征信息,并对相应的第二多维度标签进行纠正。通过无监督特征选择得到第一多维度标签,并通过重新集群进行降维处理得到第二多维度标签再通过相似度对样本进行分配,保证样本能够被分配到具有最高相似性的元簇,从而保证了标签的准确性。

专利详细信息

项目 内容
专利名称 一种用于集群的标签纠正方法
专利类型 发明授权
申请号 CN202311630041.4
申请日 2023/12/1
公告号 CN117332303B
公开日 2024/3/26
IPC主分类号 G06F18/24
权利人 太极计算机股份有限公司
发明人 祁纲; 王语博; 韩国权; 李芳
地址 北京市朝阳区容达路7号中国电科太极信息产业园

专利主权项内容

1.一种用于集群的标签纠正方法,其特征在于,包括:步骤1:获取初始状态下主集群的数量并对每个主集群进行无监督的特征选择,基于选择结果得到每个主集群所对应的第一多维度标签;步骤2:基于集群场景的特征信息选取需要重新集群的主集群创建元集群,获取每个元集群中的元簇,并基于每个元集群中元簇对应的特征信息对第一多维度标签进行降维处理,得到每个元集群对应的第二多维度标签;步骤3:获取待分配样本的样本特征信息以及每个待分配样本的样本特征信息与每个元簇的相似度,并将每个待分配样本分配至相似度最高的元簇中得到最终簇;步骤4:获取每个元集群所对应分配的所有最终簇的最终簇特征信息,并基于所述最终簇特征信息对相应的第二多维度标签进行纠正;其中,步骤4中,基于所述最终簇特征信息对相应的第二多维度标签进行纠正,包括:获取每个元集群相应的第二多维度标签,并基于所述第二多维度标签确定每个元集群的标签特征;确定每个元集群的标签特征与相应元集群最终簇特征信息中反映出的最终簇特征之间的对应关系,并基于所述对应关系对第二多维度标签进行纠正;其中,步骤3中,获取待分配样本的样本特征信息以及每个待分配样本的样本特征信息与每个元簇的相似度,并将每个待分配样本分配至相似度最高的元簇中得到最终簇,包括:获取需要重新集群的主集群的第二数据集,并基于所述第二数据集确定待分配样本,且基于每个待分配样本当前的簇信息对相应待分配样本进行特征提取,得到每个待分配样本的样本特征信息;基于所述待分配样本的样本特征信息构建样本特征向量,计算每两个样本之间的样本向量相似度,并基于所有样本相互之间的向量相似度对待分配样本进行类别划分,得到同类别待分配样本;
;其中,/>为第i个样本与第j个样本之间的向量相似度,/>为第i个样本特征向量与第j个样本特征向量之间的参数描述相交比例,/>为第i个样本特征向量与第j个样本特征向量之间的参数描述及参数值相交比例,/>为第i个样本对应向量的元素集合,/>为第j个样本对应向量的元素集合,且元素集合中包含参数描述以及每个参数描述的参数值,/>为第i个样本与第j个样本基于参数描述的交集元素数量,/>为第i个样本与第j个样本基于参数描述的并集元素数量;/>为第i个样本与第j个样本基于参数描述及参数值的交集元素数量;/>为第i个样本与第j个样本基于参数描述及参数值的并集元素数量;为第i个样本与第j个样本的向量之间的元素差异方差;/>为所有任意两个待分配样本的向量之间的元素差异方差的平均值;/>为第i个样本与第j个样本的向量之间的距离值;/>为基于交并结果的相似调节因子;max表示最大值符号;/>表示第i个样本的元素数量;/>表示第j个样本的元素数量;获取每个同类别待分配样本的中心向量,基于每个元簇的特征信息构建每个元簇的元簇特征向量,计算每个同类别待分配样本的中心向量与每个元簇特征向量的相似度,得到向量相似度;筛选出向量相似度超出预设相似度阈值的待分配样本类别以及相应的元簇,若同类别的待分配样本对应一个元簇,则将相应待分配样本分配至相应的元簇,得到最终簇;若同类别的待分配样本对应两个或两个以上的元簇,则选择向量相似度最高的元簇将相应类别的待分配样本分配至相应元簇,得到最终簇;若同类别待分配样本的中心向量与每个元簇的元簇特征向量之间的相似度都低于预设相似度阈值,则计算相应类别待分配样本中的每个待分配样本的样本特征向量与每个元簇的元簇特征向量之间的相似度,并基于计算结果将每个样本分配至相似度最高的元簇中得到最终簇;其中,步骤1中,获取初始状态下主集群的数量并对每个主集群进行无监督的特征选择的过程中,包括:获取初始状态下的第一数据集,并基于预设群类型对所述第一数据集中每个数据进行分类;将分类结果的数量作为主集群的数量,且结合每个分类结果中每个数据的数据特征,确定相应的主集群的多维度特征;其中,所述第一数据集包含图片信息、音频信息;所述预设群类型为图片类型、音频类型以及视频类型。