← 返回列表

一种能源大数据敏感数据智能化识别方法

申请号: CN202410217787.0
申请人: 青岛他坦科技服务有限公司; 国网河南省电力公司经济技术研究院; 国网智能电网研究院有限公司
更新日期: 2026-03-16

专利详细信息

项目 内容
专利名称 一种能源大数据敏感数据智能化识别方法
专利类型 发明申请
申请号 CN202410217787.0
申请日 2024/2/28
公告号 CN117807190A
公开日 2024/4/2
IPC主分类号 G06F16/33
权利人 青岛他坦科技服务有限公司; 国网河南省电力公司经济技术研究院; 国网智能电网研究院有限公司
发明人 王世谦; 邵志鹏; 张小建; 贾一博; 高先周; 李为; 宋大为; 王圆圆; 费稼轩; 黄秀丽; 卜飞飞; 李秋燕; 华远鹏; 韩丁
地址 山东省青岛市即墨区青岛国际海洋传感器研究院310-312室; 河南省郑州市二七区嵩山南路87号; 北京市昌平区未来科技城滨河大道18号

摘要文本

本发明涉及数据处理技术领域,具体涉及一种能源大数据敏感数据智能化识别方法,该方法包括:采集电力行业日志数据;计算各分词的TF‑IDF值,进而获取各分词所在聚类簇,获取各分词的最大单模维度,进而获取各分词的日志电敏感指数;获取各分词的局部主题词集合,进而计算各分词的主体恒定权重;根据主题恒定权重、日志点敏感指数和主题词之间的距离获取各分词的局部电敏感修正指数,进而获取各分句的敏感修饰权重;获取各分句的电力分句敏感指数,进而获取各分词的电力敏感特征向量,并对敏感数据进行识别。本发明旨在解决由于中文语言结构的特殊性和复杂性导致敏感数据识别不准确的问题。

专利主权项内容

1.一种能源大数据敏感数据智能化识别方法,其特征在于,该方法包括以下步骤:采集电力行业日志数据,进行分句处理,提取各分句中各分词的词向量;使用TF-IDF算法计算各分词的TF-IDF值,根据各分词的词向量之间的欧式距离对各分词进行聚类划分,根据各分词的词向量中的元素值获取各分词的最大单模维度;根据各分词的最大单模维度和TF-IDF值获取各分词的日志电敏感指数;根据各分词所在分句在电力行业日志数据中的顺序获取各分词的局部主题词集合;根据局部主题词集合中各主题词之间的距离获取各分词的主体恒定权重;根据主题恒定权重、日志点敏感指数和主题词之间的距离获取各分词的局部电敏感修正指数;根据日志电敏感指数和局部电敏感修正指数获取各分句的敏感修饰权重;根据敏感修饰权重、日志电敏感指数和局部电敏感修正指数获取各分句的电力分句敏感指数;根据各分词的日志电敏感指数、局部电敏感修正指数和各分句的电力分句敏感指数获取各分词的电力敏感特征向量;根据各分词、各分词的词向量和电力敏感特征向量对敏感数据进行识别。