← 返回列表

一种医疗健康大数据优化采集方法

申请号: CN202410210792.9
申请人: 济宁医学院附属医院
申请日期: 2024/2/27

摘要文本

本发明涉及数据处理技术领域,尤其涉及一种医疗健康大数据优化采集方法,该方法获取初始医疗健康大数据,对初始医疗健康大数据进行预设的数据预处理,得到医疗健康大数据,获取医疗健康大数据中的任一类目标数据;获取目标数据的平滑拟合曲线;将目标数据与平滑拟合曲线上对应的拟合值做差,得到差值集合,根据差值集合构建得到差值直方图,根据差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,根据正态分布时区间确定目标数据中的异常目标数据,对目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据,提高了对目标数据进行跳点数据清洗的效果,完成了对医疗健康大数据的优化采集。

专利详细信息

项目 内容
专利名称 一种医疗健康大数据优化采集方法
专利类型 发明申请
申请号 CN202410210792.9
申请日 2024/2/27
公告号 CN117789999A
公开日 2024/3/29
IPC主分类号 G16H50/70
权利人 济宁医学院附属医院
发明人 戈艺
地址 山东省济宁市任城区古槐路89号

专利主权项内容

1.一种医疗健康大数据优化采集方法,其特征在于,所述一种医疗健康大数据优化采集方法包括:获取初始医疗健康大数据,对所述初始医疗健康大数据进行预设的数据预处理,得到医疗健康大数据,获取所述医疗健康大数据中的任一类目标数据;对所述目标数据进行数据值统计得到对应的直方图,获取所述直方图的正态分布曲线,将所述直方图中的每个区间的频数转换为概率密度,构建得到概率密度曲线,根据所述正态分布曲线和所述概率密度曲线,获取所述目标数据的平滑拟合曲线;将所述目标数据与所述平滑拟合曲线上对应的拟合值做差,得到差值集合,根据所述差值集合构建得到差值直方图,获取所述差值直方图的正态分布曲线和概率密度曲线,根据所述差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,根据所述正态分布时区间确定所述差值集合中的异常差值;根据所述异常差值确定所述目标数据中的异常目标数据,对所述目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据;所述根据所述差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,包括:利用DTW算法获取所述差值直方图的正态分布曲线和概率密度曲线之间的第二相似度,将所述第二相似度与预设的相似度阈值进行对比,若所述第二相似度大于或等于所述相似度阈值,则所述正态分布时区间为所述差值直方图的正态分布曲线上的三个标准差所对应的正态分布时区间;若所述第二相似度小于所述相似度阈值,根据所述差值集合中的差值类型,获取标准差的第二数量,则所述正态分布时区间为所述差值直方图的正态分布曲线上的第二数量个标准差所对应的正态分布时区间;所述根据所述差值集合中的差值类型,获取标准差的第二数量,包括:针对所述差值集合中的任一类差值,根据所述类差值在所述差值集合中的位置,分别获取每两个相邻差值之间的位置距离,得到位置距离序列,统计所述位置距离序列中的每类位置距离的第三数量,得到第三数量的方差,对所述第三数量的方差进行负映射,得到对应的映射值,将常数1与所述映射值之间的差值作为所述类差值的规律性指标;根据所述差值集合中的每类差值的规律性指标,获取规律性指标均值,将所述规律性指标均值与常数3的乘积作为标准差的第二数量。