基于数据挖掘和神经网络的异常数据监测与分析方法
申请人信息
- 申请人:易知谷科技集团有限公司
- 申请人地址:210000 江苏省南京市雨花台区大周路34号B2号楼13层1316-1317室
- 发明人: 易知谷科技集团有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于数据挖掘和神经网络的异常数据监测与分析方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311718358.3 |
| 申请日 | 2023/12/14 |
| 公告号 | CN117421684B |
| 公开日 | 2024/3/12 |
| IPC主分类号 | G06F18/2433 |
| 权利人 | 易知谷科技集团有限公司 |
| 发明人 | 林明; 胡琴; 卢山 |
| 地址 | 江苏省南京市雨花台区大周路34号B2号楼13层1316-1317室 |
摘要文本
本发明涉及异常数据监测技术领域,具体为基于数据挖掘和神经网络的异常数据监测与分析方法,包括:通过对实时通信数据进行预处理,再进行数据编码,使用异常数据检测方法检测和识别异常通信数据,并对所述异常通信数据进行标准化处理,通过强化的加权随机森林算法的异常检测,准确地识别并控制设备的异常行为,利用强化的流式异常检测算法和训练好的神经网络模型对所述分类好的异常数据进行识别,实时地通过自适应方法检测和预警所述异常数据,利用自适应学习率根据自适应梯度调整因子进行调整。该方法具有良好的有效性和准确性,具有效率高、能耗低、智能化高等优点。
专利主权项内容
1.基于数据挖掘和神经网络的异常数据监测与分析方法,其特征在于,包括:获取用户侧的高维实时通信数据集,并进行分类标记和预处理;使用双向循环神经网络BiRNN模型进行特征提取,并采用主成分分析方法进行降维;用离散编码方法进行编码形成编码数据;所述编码数据通过强化的加权随机森林算法进行分类,将其分成正常数据集和异常数据集;将所述异常数据集输入至卷积神经网络检测模型中训练;通过比较每个数据点与其附近邻居点的平均密度来计算局部异常因子值,局部异常因子值小于某个阈值的数据点是异常点;周期性地更新邻域集合的平均密度,根据更新后的所述平均密度更新邻域内的数据点的局部异常因子值;利用强化的流式异常检测算法和训练好的卷积神经网络模型实时地处理所述异常数据集,根据环境和数据集变化的数据分布进行动态调整,并自动识别出异常数据的异常类型;结果输出与预警,实时地通过自适应方法检测所述异常数据集;根据阈值,判断数据样本是否为异常并进行相应的预警处理,并将预警信息反馈给预警系统;自适应方法实时地跟踪数据的变化,并动态地调整模型和参数,更能适应不同类型和分布的数据,提供更准确的异常检测和预警结果,使预警准确率达到90%以上;通过强化的加权随机森林算法进行分类,包括以下步骤:将所述编码数据输入到强化的加权随机森林模型中进行训练;使用训练好的强化的加权随机森林模型来进行异常检测和分类,将所述编码数据分成正常数据集和异常数据集;为每个异常数据样本分配一个权重;对于未标记的新样本,训练好的模型将利用其学习到的参数和权重,根据学习到的规则进行分类推断,将所述新样本分配给正常类别或异常类别;模型的参数和权重是通过训练过程中的优化算法从已标记的样本中学习得来的;数据的标记分类指的是将所有数据集分为正常数据集和异常数据集,所述编码数据通过强化的加权随机森林算法进行分类,所述强化的加权随机森林算法的权重函数如下:其中,是决策树的非平衡度,N是决策树的个数,/>是决策树的投票权重;给定N个平衡的子训练集,在N个平衡子训练集上进行训练,得到N个决策树分类器,是1到N的自然数;通过加权投票,得到最终的分类器,表示如下:其中,Y为异常数据集;将最终得到的分类器用于测试集测试分类效果;利用强化的流式异常检测算法和训练好的卷积神经网络模型对所述异常数据集进行识别,所述强化的流式异常检测算法中的局部异常因子的计算过程如下:对于实时通信数据集中的每个异常数据点:计算的 k 最近邻,并获得邻域集合/>;计算数据点到数据点/>的k可达距离/>,其为数据点/>的k邻近距离/>和点/>与之间的欧式距离/>的最大值;根据距离阈值,将距离小于等于所述阈值的数据点定义为目标点的邻域内的数据点;则目标点/>的邻域内的数据点表示为:其中,表示目标点/>的邻域内的数据点集合;D是实时通信数据集;/>表示数据点/>与目标点/>之间的欧式距离;/>表示距离小于等于阈值/>,则数据点/>属于目标点/>的邻域内;不同k可达距离对应不同的距离阈值,根据k可达距离进行动态调整阈值/>;将数据点/>到数据点/>的k可达距离/>与阈值/>进行比较;如果某个异常数据点的k可达距离小于阈值/>,则将其标记为同一类型的异常;如果出现连续的异常点,则增加阈值/>以提高准确性;如果没有出现异常点,则降低阈值/>以增加敏感性;计算与的邻域集合/>的平均密度,记作/>;计算的局部异常因子/>;其中,M是数据点的个数;利用自适应方法,使异常检测模型能够根据数据的变化自动调整,适应新的数据分布和模式变化;所述自适应方法中的更新公式如下:其中,是参数/>的更新值,/>是自适应学习率,/>是自适应梯度调整因子,/>是梯度的一阶矩,即均值,/>是梯度的二阶矩,即方差,/>是平滑项,/>是当前的梯度;学习率根据自适应梯度调整因子进行调整,使用调整后的学习率更新模型的参数;当自适应梯度调整因子变大时,学习率就变小;自适应梯度调整因子变小时,学习率就变大;获取用户侧的高维实时通信数据集,对所述高维实时通信数据集进行标记分类;所述高维数据集包括以下10个维度数据:时间戳、发送者和接收者标识、通信方式、通信时长、通信质量指标、带宽使用、通信位置、数据流量、网络拓扑和用户行为;剔除不存在通信异常行为的用户,并保留存在异常的数据样本;所述异常数据包括信号质量异常、掉话率异常、呼叫接通率异常、数据传输速率异常、基站故障或异常状态、流量异常。