← 返回列表
一种半结构化数据中个人标识信息识别方法与系统
申请人信息
- 申请人:南湖实验室
- 申请人地址:314001 浙江省嘉兴市南湖区七星街道香湖别墅29幢
- 发明人: 南湖实验室
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种半结构化数据中个人标识信息识别方法与系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410253586.6 |
| 申请日 | 2024/3/6 |
| 公告号 | CN117827991A |
| 公开日 | 2024/4/5 |
| IPC主分类号 | G06F16/28 |
| 权利人 | 南湖实验室 |
| 发明人 | 廖佳纯; 姚思诚; 陈海粟 |
| 地址 | 浙江省嘉兴市南湖区七星街道香湖别墅29幢 |
摘要文本
本发明涉及信息安全技术领域,尤其涉及一种半结构化数据中个人标识信息识别方法与系统。该方法包括数据表读取和识别结果汇总保存,还包括数据预处理和靶向识别,所述数据预处理即将待识别的数据表按字段拆分为包含字段名、字段数据类型的字段描述信息和字段实际记录信息的单个字段,所述靶向识别包括预设模板识别和最小覆盖识别。本发明能够高效的对其中包含的个人标记信息进行识别,帮助相关从业人员了解数据表中的个人信息情况。
专利主权项内容
1.一种半结构化数据中个人标识信息识别方法,包括数据表读取和识别结果汇总保存,其特征在于:还包括数据预处理和靶向识别,所述数据预处理即将待识别的数据表按字段拆分为包含字段名、字段数据类型的字段描述信息和字段实际记录信息的单个字段,所述靶向识别包括预设模板识别和最小覆盖识别,具体流程如下,将待识别的数据表进行数据预处理,对拆分完成后的字段逐个进行识别,识别时,首先分析字段描述信息,判定是否符合预设模板识别的要求,若符合,则进行预设模板识别,若不符合,则采用最小覆盖识别模块进行识别。