← 返回列表
一种基于网关的数据脱敏方法
摘要文本
本发明涉及数据脱敏的领域,尤其涉及一种基于网关的数据脱敏方法,本发明通过将网关所接收的语音数据转换为文本数据,并分割为若干文本句,将文本句中的词汇与样本数据库中存储的若干违禁词汇进行对比,以确定文本句中是否存在特征词汇,提取样本数据库中包含样本关联词汇的若干样本句,解析存在特征词汇的文本句的句子结构,并与所提取的若干样本句的句子结构进行对比,以计算结构拟合参数判定文本句与样本句的关联关系,基于文本句与样本句的关联关系,执行对应脱敏策略,通过上述过程考虑实际发音与违禁词的音调不同时脱敏效果差的问题,自适应调整脱敏的方法,提高网关对数据的脱敏效果。 来源:马 克 团 队
申请人信息
- 申请人:北京景安云信科技有限公司
- 申请人地址:100000 北京市海淀区天秀路10号农大国际创业园3号楼5层5037
- 发明人: 北京景安云信科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于网关的数据脱敏方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311444921.2 |
| 申请日 | 2023/11/2 |
| 公告号 | CN117496977A |
| 公开日 | 2024/2/2 |
| IPC主分类号 | G10L15/26 |
| 权利人 | 北京景安云信科技有限公司 |
| 发明人 | 谢雨航; 刘明礼; 庄恩贵 |
| 地址 | 北京市海淀区天秀路10号农大国际创业园3号楼5层5037 |
专利主权项内容
1.一种基于网关的数据脱敏方法,其特征在于,包括:步骤S1,将网关所接收的语音数据转换为文本数据,并分割为若干文本句,将文本句中的词汇与样本数据库中存储的若干违禁词汇进行对比,以确定文本句中是否存在特征词汇;步骤S2,提取样本数据库中包含样本关联词汇的若干样本句,所述样本关联词汇为与特征词汇拼音特征相同的违禁词汇;步骤S3,解析存在特征词汇的文本句的句子结构,并与所提取的若干样本句的句子结构进行对比,以计算结构拟合参数判定所述文本句与样本句的关联关系;步骤S4,基于所述文本句与样本句的关联关系,执行对应脱敏策略,包括,分析特征词汇与剩余语句的语义关联度,在语义关联度小于预定标准时对所述文本句进行脱敏;或,确定所述文本句中的非特征词汇,并与所提取的各所述样本句进行对比,根据所述文本句中各所述非特征词汇与各所述样本句的关联度计算关联表征值,以判定所述特征词汇是否为违禁词汇,并在判定所述特征词汇为违禁词汇时对所述文本句进行脱敏。