← 返回列表

数据质量校验方法、系统、电子设备及存储介质

申请号: CN202311413504.1
申请人: 苏州元脑智能科技有限公司
申请日期: 2023/10/30

摘要文本

本发明涉及计算机技术领域,尤其涉及一种数据质量校验方法、系统、电子设备及存储介质,方法包括:基于数据表的数据列对应的基础校验规则,和/或数据列对应的元素特征校验规则,对数据表中的行数据进行打分,以完成数据质量校验;每个数据列均对应至少一个基础校验规则,元素特征校验规则与数据列一一对应;基础校验规则为通过对对应的数据列的全部属性值的数据属性进行统计得到的,元素特征校验规则为通过对对应的数据列的全部属性值的公共字符元素特征进行规则化处理得到的。本方法通过对数据表进行无监督地统计,自动生成相应的基础校验规则和/或元素特征校验规则,能够较好地提高数据质量校验的精确度,成本较低,可行性较高。

专利详细信息

项目 内容
专利名称 数据质量校验方法、系统、电子设备及存储介质
专利类型 发明授权
申请号 CN202311413504.1
申请日 2023/10/30
公告号 CN117150246B
公开日 2024/2/9
IPC主分类号 G06F18/20
权利人 苏州元脑智能科技有限公司
发明人 秦朝阳
地址 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢

专利主权项内容

1.一种数据质量校验方法,其特征在于,包括:基于数据表的数据列对应的基础校验规则,和/或所述数据列对应的元素特征校验规则,对所述数据表中的行数据进行打分,以完成数据质量校验;每个所述数据列均对应至少一个所述基础校验规则,所述元素特征校验规则与所述数据列一一对应;所述基础校验规则为通过对对应的所述数据列的全部属性值的数据属性进行统计得到的,所述元素特征校验规则为通过对对应的所述数据列的全部所述属性值的公共字符元素特征进行规则化处理得到的;所述基础校验规则的获取步骤包括:对任一所述数据列进行数据属性识别,得到对应的所述数据列的数据属性集,所述数据属性集包括至少一个数据属性子集,在所述数据属性子集的数量大于一个的情况下,每个所述数据属性子集均对应了相应的类型,每个所述数据属性子集均包括对应类型的所述数据属性;对任一所述数据属性子集中的所述数据属性进行统计,得到相同所述数据属性的出现次数;基于所述出现次数超出预设的百分比阈值的所述数据属性,确定校验指标;基于所述校验指标,生成所述基础校验规则,每个所述基础校验规则均对应设有相应的置信度和权重,所述校验指标与所述基础校验规则一一对应;所述公共字符元素特征的获取步骤包括:对任一所述数据列中的全部所述属性值进行字符拆解,得到字符集,所述字符集包括多个字符;对每个所述字符在所述字符集中的出现频次进行统计,得到每个所述字符的所述出现频次;将所述出现频次大于或等于预设的频次阈值的所述字符,确定为公共字符池中的所述公共字符元素特征,所述公共字符池与所述数据列一一对应;所述元素特征校验规则的获取步骤包括:将任一所述数据列中的全部所述属性值分别与对应的所述公共字符池进行交集处理;对与所述公共字符池存在交集的所述属性值的所述字符进行标记;将被标记的所述字符确定为第一预设数值,将未被标记的所述字符确定为第二预设数值,以得到当前所述数据列中每个所述属性值的属性向量;对全部所述属性向量进行投影操作,得到叠加向量组;将所述叠加向量组中任一点位中密度最大的数值确定为标尺向量点位值;将全部所述点位各自对应的所述标尺向量点位值确定为标尺向量;基于所述标尺向量,生成当前所述数据列的所述元素特征校验规则,所述元素特征校验规则设有相应的置信度和权重。