一种面向海量瞬变数据的异常快速发现方法及系统
申请人信息
- 申请人:烟台云朵软件有限公司
- 申请人地址:264000 山东省烟台市高新区蓝海路1号4号楼一楼创客空间
- 发明人: 烟台云朵软件有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种面向海量瞬变数据的异常快速发现方法及系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311714700.2 |
| 申请日 | 2023/12/14 |
| 公告号 | CN117407443B |
| 公开日 | 2024/3/26 |
| IPC主分类号 | G06F16/2458 |
| 权利人 | 烟台云朵软件有限公司 |
| 发明人 | 戴鹏飞; 周春姐 |
| 地址 | 山东省烟台市高新区蓝海路1号4号楼一楼创客空间 |
摘要文本
(来 自 专利查询网) 。本发明涉及一种数据处理领域,尤其涉及一种面向海量瞬变数据的异常快速发现方法及系统。本发明为了克服现有技术无法监测实时变化的海量数据的缺点,本发明要解决的技术问题是提供一种面向海量瞬变数据的异常快速发现方法及系统。本发明通过采用两个深度学习模型对数据进行过滤,进行数据异常判断,设置用户交互模块,用户能在用户交互模块下达指令,为深度学习模型提供建议,同时用户能在用户交互模块查看数据错误的信息,数据精简度大大提高的同时不影响数据异常识别的精度,深度学习模型能够及时进行改进,用户能够根据错误信息查看系统运行情况,获取错误原因,能够及时更改数据源获取到的数据,提高了生产经营的效率。
专利主权项内容
1.一种面向海量瞬变数据的异常快速发现系统,其特征在于,包括有以下模块:数据获取模块,负责对海量瞬变数据的获取,并将海量瞬变数据发送至数据存储模块进行存储;数据处理模块,用于对海量瞬变数据进行预处理操作,并进行特征提取;异常数据判断标注模块,用于对处理后的数据进行异常值判断,检测数据中的异常信息;并对过滤完成后的数据进行异常数据标注处理,包括格式转换和编译操作;模型优化模块,负责对海量瞬变数据进行异常检测的模型进行优化,提高模型在异常检测时的响应速度及准确率;数据安全模块,用于对测量得到的海量瞬变数据以及模型预测的异常结果进行安全防护;数据存储模块,对海量瞬变数据以及处理完成的数据进行存储;用户交互模块,用于向用户汇报面向海量瞬变数据异常快速发现系统的运行日志,并对海量瞬变数据的异常数据快速发现结果进行可视化展示;具体由以下流程实现:S1首先对获取到的海量瞬变数据进行数据归一化处理,将数据标准化,确保深度学习模型不会因为数据的不同量级受影响,并使用滤波算法对海量瞬变数据降噪处理,保证数据的稳定性;S2之后对数据清洗完毕的海量瞬变数据进行特征提取,提取出有助于异常检测的特征;S3使用训练好的深度学习模型,其中一个是对数据进行异常值判断的深度学习模型而另一个是进行异常数据标注的深度学习模型,利用两个深度学习模型来对异常数据进行快速发现;S4利用异常值判断的深度学习模型对获取到的数据进行初步过滤,过滤掉模板性数据,保留包含具体信息的数据;S5对过滤完成的数据利用异常数据标注的深度学习模型进行二次过滤,判断其中无法读取的数据;对数据进行异常数据标注处理,将无法识别的数据和处理失败的数据标识为异常数据;S6获取异常数据的错误信息,通过判断出的异常数据中的错误信息,不断对两个深度学习模型进行参数优化,保证两个深度学习模型的拟合能力,并防止模型陷入欠拟合或过拟合的状况;所述步骤S3、S4使用了两个模型结合的方式对海量瞬变数据的异常进行快速发现,其中第一个模型采用的是稀疏自编码器模型,通过对海量瞬变数据的低维表示进行学习,来重构输入的海量瞬变数据,通过对稀疏自编码器模型使用正常数据进行训练,当训练完成的稀疏自编码器模型在遇到海量瞬变数据中与训练数据分布明显不同的异常数据时,重构误差会增大,以此作为发现异常的依据;同时稀疏自编码器模型通过比对数据集中不同的数据,挖掘出共同字段,并从数据中分割字段,筛选出带有实质信息的数据,并将筛选出的数据发送给下一个模型进行异常数据标注;其中,具体的模型计算公式为:其中,是重构误差,x是真实输入,/>是稀疏自编码器的输出,/>是Kullback-Leibler散度,用于衡量实际稀疏度/>和期望稀疏度/>之间的差异,而/>则是稀疏性权重,稀疏自编码器通过引入稀疏性约束,使自编码器算法能够聚焦于海量瞬变数据中来区分正常数据与异常数据的特征,同时,稀疏自编码器能够学习有限的特征,在任何时刻值激活少量的神经元,提高海量瞬变数据异常值判断的处理速度;所述步骤S5中进行异常数据标注的模型为梯度提升机模型,在所述步骤S4将实质性信息的数据筛选后,训练好的梯度提升机模型接收到筛选后的数据,预测数据中的每个数据是否异常,并给每个数据一个概率得分x,对概率得分设定一个评判标准其中x为正在进行评判的数据概率得分,a、b为评判该数据的概率得分设置的阈值,当该数据的概率得分在a、b之间,则判定该数据通过第二次数据异常评断;当该数据小于a或大于b时,则判定该数据为异常数据,其中a、b为工作人员根据业务需求不断调整的概率得分阈值,其中具体的计算公式为:其中是梯度提升机在时间t的输出值,hi(x)是第i个弱学习器的预测,在每个时间步t,梯度提升机评估当前模型的性能,根据需要添加新的弱学习器,γi是第i个弱学习器的权重,在对瞬变数据的每一轮学习中根据弱学习器对于改进模型性能的贡献进行更新,ω是学习率,决定了弱学习器对最终结果的贡献程度。