← 返回列表

基于数据中台的数据血缘关系构建方法

申请号: CN202410044688.7
申请人: 山东再起数据科技有限公司
申请日期: 2024/1/12

摘要文本

本发明涉及计算机技术领域,具体涉及基于数据中台的数据血缘关系构建方法。该方法包括:响应于数据血缘关系构建的请求,对数据集进行解析得到数据字段之间的依赖关系;依据数据字段之间的依赖关系确定数据集之间的依赖关系;当数据集之间的依赖关系为基于数据流的关系,获取数据集的数据生命周期的时序,根据时序构建层级别的数据血缘关系;当数据集之间的依赖关系为基于数据内容的关系,计算数据集之间的数据相似度,根据数据相似度构建层级别的数据血缘关系。本发明能够建立层级别的数据血缘关系,能够更好地理解数据来源和数据之间的关系,从而更好地管理和控制数据质量、数据一致性和数据完整性。

专利详细信息

项目 内容
专利名称 基于数据中台的数据血缘关系构建方法
专利类型 发明授权
申请号 CN202410044688.7
申请日 2024/1/12
公告号 CN117555950B
公开日 2024/4/2
IPC主分类号 G06F16/2458
权利人 山东再起数据科技有限公司
发明人 田山; 张志龙; 孙小龙
地址 山东省青岛市市南区银川西路67-69号E座115A

专利主权项内容

1.基于数据中台的数据血缘关系构建方法,其特征在于,方法包括:响应于数据血缘关系构建的请求,对数据集进行解析得到数据字段之间的依赖关系:对数据集进行预处理;对预处理后的数据集进行提取字段名和字段类型;根据关联规则挖掘对字段名和字段类型进行字段之间的关联性确定;将相关联的字段进行PCA分析,得到数据字段之间的依赖关系:(1)将相关联的字段形成矩阵X,计算矩阵X的样本的协方差矩阵 S;(2)计算协方差矩阵S的特征向量 , />, …, />和特征值, t = 1, 2, …, n;(3) 投影数据到特征向量的空间之中,利用公式:
;其中,BV值是原样本中对应维度的值,基于值通过主成分分析和压缩数据空间处理将多元数据的特征在低维空间里直观地展示数据字段之间的依赖关系;依据数据字段之间的依赖关系确定数据集之间的依赖关系:依据数据字段之间的依赖关系判断字段名和字段类型是否有共同的上游数据或者数据源,若是,数据集之间的依赖关系为基于数据流的关系;依据数据字段之间的依赖关系判断字段名和字段类型在语义上是否为相似,若是,数据集之间的依赖关系为基于数据内容的关系;当数据集之间的依赖关系为基于数据流的关系,获取数据集的数据生命周期的时序,根据时序构建层级别的数据血缘关系;当数据集之间的依赖关系为基于数据内容的关系,计算数据集之间的数据相似度,根据数据相似度构建层级别的数据血缘关系。