← 返回列表

一种半结构化数据中个人标识信息识别方法与系统

申请号: CN202410253586.6
申请人: 南湖实验室
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 一种半结构化数据中个人标识信息识别方法与系统
专利类型 发明申请
申请号 CN202410253586.6
申请日 2024/3/6
公告号 CN117827991A
公开日 2024/4/5
IPC主分类号 G06F16/28
权利人 南湖实验室
发明人 廖佳纯; 姚思诚; 陈海粟
地址 浙江省嘉兴市南湖区七星街道香湖别墅29幢

摘要文本

本发明涉及信息安全技术领域,尤其涉及一种半结构化数据中个人标识信息识别方法与系统。该方法包括数据表读取和识别结果汇总保存,还包括数据预处理和靶向识别,所述数据预处理即将待识别的数据表按字段拆分为包含字段名、字段数据类型的字段描述信息和字段实际记录信息的单个字段,所述靶向识别包括预设模板识别和最小覆盖识别。本发明能够高效的对其中包含的个人标记信息进行识别,帮助相关从业人员了解数据表中的个人信息情况。

专利主权项内容

1.一种半结构化数据中个人标识信息识别方法,包括数据表读取和识别结果汇总保存,其特征在于:还包括数据预处理和靶向识别,所述数据预处理即将待识别的数据表按字段拆分为包含字段名、字段数据类型的字段描述信息和字段实际记录信息的单个字段,所述靶向识别包括预设模板识别和最小覆盖识别,具体流程如下,将待识别的数据表进行数据预处理,对拆分完成后的字段逐个进行识别,识别时,首先分析字段描述信息,判定是否符合预设模板识别的要求,若符合,则进行预设模板识别,若不符合,则采用最小覆盖识别模块进行识别。