潜浮标数据质量控制方法、系统、计算机及存储介质
申请人信息
- 申请人:青岛海洋科技中心; 青岛国实科技集团有限公司
- 申请人地址:266237 山东省青岛市即墨区问海中路168号
- 发明人: 青岛海洋科技中心; 青岛国实科技集团有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 潜浮标数据质量控制方法、系统、计算机及存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311728797.2 |
| 申请日 | 2023/12/15 |
| 公告号 | CN117408581B |
| 公开日 | 2024/3/26 |
| IPC主分类号 | G06Q10/0639 |
| 权利人 | 青岛海洋科技中心; 青岛国实科技集团有限公司 |
| 发明人 | 谭华; 吴光楠; 罗崇鑫; 苏亮; 刘进; 王新宁 |
| 地址 | 山东省青岛市即墨区问海中路168号; 山东省青岛市即墨市凤凰路以西、创业路以南 |
摘要文本
本发明涉及电数据处理领域,特别是涉及潜浮标数据质量控制方法、系统、计算机及存储介质,其中,该方法包括:获取自持式剖面探测浮标的观测数据中的设备编号、浮标位置、观测日期及观测剖面的温度数据、盐度数据、压力数据、深度数据;根据所述设备编号及观测日期进行质量检测,根据所述温度数据、盐度数据、压力数据及深度数据进行统计检测,将检测到的异常信号剔除得到处理后的数据;根据所述温度数据、盐度数据计算温度梯度、盐度梯度,并将所述温度梯度、盐度梯度和所述观测数据输入一预训练的多层感知器MLP进行分类,以识别异常数据及可信数据。通过本发明实现了提高潜浮标数据质量控制精度及普遍适用性。
专利主权项内容
1.一种潜浮标数据质量控制方法,其特征在于,包括:数据获取步骤,获取自持式剖面探测浮标的观测数据,所述观测数据包括设备编号、浮标位置、观测日期及观测剖面的温度数据、盐度数据、压力数据、深度数据;数据噪声识别步骤,将所述观测数据按照观测时间的月份进行分组后,按照月份分次进行支持向量数据描述SVDD算法的预训练生成12个具有时间特性的支持向量数据描述SVDD算法,通过预训练的支持向量数据描述SVDD算法判断观测数据中的离群点并标注噪声标签,将标注有噪声标签的数据进行剔除;第一数据质量检测步骤,根据所述设备编号及观测日期进行质量检测,根据所述温度数据、盐度数据、压力数据及深度数据进行统计检测,将检测到的异常信号剔除得到处理后的数据;第二数据质量检测步骤,获取在第一数据质量检测步骤处理后的数据,根据所述温度数据、盐度数据计算温度梯度、盐度梯度,并将所述温度梯度、盐度梯度和所述观测数据按观测时间的月份进行分组后输入一预训练的多层感知器MLP拟合非线性函数进行观测值是否合理的判断从而进行分类,基于温度梯度和盐度梯度提供数据连续性的信息,使多层感知器MLP对数据的跳跃或峰值敏感,以识别异常数据及可信数据,所述多层感知器是利用经质量控制后的历史数据和再分析数据形成的数据集经前向传播、反向传播训练得到的用于识别温度数据、盐度数据异常或可信的神经网络,所述第一数据质量检测步骤进一步包括:数据包检测步骤,检测所述设备编号是否与所述探测浮标对应且与浮标灰名单中的浮标编号不同,并检测所述观测日期是否符合预设日期条件,若否,则将数据识别为异常数据,其中,浮标灰名单是获取自全球Argo资料中心的因传感器故障导致观测数据无法矫正的浮标编号;浮标数据检测步骤,根据所述浮标位置是否满足经纬度规范、预设投放目标区域及海陆界面规范检测异常数据,并根据二相近剖面的浮标位置和观测日期的时间计算所述探测浮标的漂移速度,根据一速度阈值检测超过所述速度阈值的异常数据,进一步的,根据全球地形起伏模型作为标准制作水陆点数据库,水陆点数据库中包括为海上的经纬度点及陆地的经纬度点,基于此识别浮标位置点不在海上的数据并标记为异常数据;观测数据检测步骤,对观测剖面的所述温度数据、盐度数据、压力数据、深度数据进行范围检测和/或统计特征检测,识别异常数据并剔除;所述观测数据检测步骤进一步包括:温盐度数据检测步骤,对所述温度数据、盐度数据进行范围检测、毛刺信号检测、梯度检测、数位翻转检测、滞留检测、密度倒转检测、漂移检测及冻结检测,以识别观测的温度数据、盐度数据中异常数据并剔除,温度数据、盐度数据范围检测对应的预设温盐度范围包括:温度数据范围为-2.5~40.0℃、盐度数据范围为0.0~41.0PSU,毛刺信号检测是根据不同压力下对温度和盐度数据配置对应的毛刺阈值,当剖面所处压力小于500×10hPa时,温度毛刺阈值配置为7.0,盐度毛刺阈值配置为0.9;当剖面所处压力大于或等于500×10 hPa时,温度毛刺阈值配置为2.5,盐度毛刺阈值配置为0.3,计算盐度数据或盐度数据尖峰值V2与其前相邻观测数据V1、后相邻观测数据V3的测试值是否超过对应毛刺阈值判断是否为毛刺信号,若超过则识别尖峰值V2为异常数据,具体的,测试值通过如下计算模型计算得到:2 2测试值=|V2-(V3+V1)/2|-|(V3-V1)/2|,其中,|V2-(V3+V1)/2|为观测值的梯度值;根据不同压力下对温度和盐度数据配置对应的梯度阈值,当剖面所处压力小于500×10 hPa时,温度梯度阈值配置为9.0,盐度梯度阈值配置为1.5;当剖面所处压力大于或等于500×10 hPa时,温度梯度阈值配置为3.0,盐度梯度阈值配置为0.5,若超过则识别尖峰值V2为异常数据;22其中,数位翻转检测过程中定义若相邻深度的温度数据、盐度数据的温度差大于10℃、盐度差大于5PSU为存在数位翻转并标记为异常数据;密度倒转检测通过计算出温度数据、盐度数据对应深度的密度值,对其同一观测剖面上的相邻深度的密度进行比较,若在压力较大处计算得到的密度值与压力较小处的密度值之间超出0.03 kg/m,或在压力较大处计算得到的密度值小于压力较小处的密度值,则表明观测的温度值和盐度值有误,识别为异常数据并剔除,密度值基于如下计算模型计算得到:3ρ=ρ-α(T-T)+β(S- S)000其中,ρ是海水的绝对密度,ρ是参考密度,T是温度,T是参考温度,S是盐度,S是参考盐度,α和β是校正系数;000漂移检测通过计算观测数据中每个剖面最后100×10 Pa深度范围内的平均盐度值、平均温度值,将计算的平均盐度值、平均温度值与该位置历史标准平均盐度值、平均温度值进行比较,若盐度值相差大于0.5,则将整个盐度剖面数据剔除,若温度值相差大于1℃,则将整个温度剖面数据剔除;4冻结检测用于发现探测浮标是否重复生成相同的观测剖面数据,若不同观测剖面数据的偏差中,盐度值相差小于0.001,温度值相差小于0.01,则将对应的观测数据标记为异常数据并剔除;压力数据检测步骤,检测所述压力数据是否符合单调递增且不超过预设压力阈值,否则识别为异常数据并剔除,若出现连续的非单调递增压力数据,则保留多个非单调递增压力数据中的首个数据,其他数据标记为异常数据并剔除,压力阈值配置为最深压力的10%,最深压力为2000×10Pa。4