← 返回列表

一种敏感信息发现模型的多模态数据增强方法

申请号: CN202311638869.4
申请人: 环球数科集团有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种敏感信息发现模型的多模态数据增强方法
专利类型 发明授权
申请号 CN202311638869.4
申请日 2023/12/4
公告号 CN117370934B
公开日 2024/3/22
IPC主分类号 G06F18/25
权利人 环球数科集团有限公司
发明人 张卫平; 李显阔; 王晶; 张伟; 邵胜博
地址 广东省深圳市南山区粤海街道高新南九道10号深圳湾科技生态园10栋B座17层01-03号

摘要文本

环球数科集团有限公司取得“一种透气窗帘布”专利技术,本发明公开了一种敏感信息发现模型的多模态数据增强方法与装置,属于人工智能技术领域。所述增强方法使用多编码器结构中的不同编码器对源数据中不同模态的数据进行分别编码,以保持各自的语义特征。其中,以图像数据为主,辅助以语音、文本等上下文数据进行编码。编码后的两类数据均输入到解码器进行融合处理。解码器中设置有注意力机制,可以聚焦不同编码器的输出,对源数据的可疑区域进行重新标注和增强。增强后的数据输出到敏感信息发现模型,可提高后续模型的处理效率与精确度。同时提出一种应用所述数据增强方法的装置,可在已在设备中接入该装置,即可以使现在的模型在输入端获取到增强后的源数据。

专利主权项内容

1.一种敏感信息发现模型的多模态数据增强方法,其特征在于,所述增强方法包括以下步骤:S100:从第一数据源接收含有多模态信息的源数据,从源数据中获得包括视频和/或图像的视频数据;使用图像分析器分析视频数据,从而生成多个时序上的图像特征向量;S200:进一步处理源数据中的多模态数据,获得包括声音、情感、说话者特征中的一项或一项以上特征的数据;至少基于人物、情绪、噪音特征中的一项或一项以上特征生成上下文数据;S300:使用多编码器变换器处理图像特征向量和上下文数据,以生成具有可疑信息时间标记的增强源数据,并将所述增强源数据输出到敏感信息发现模型作进一步的敏感信息分析;其后在敏感信息发现模型的分析设置中,设置重点分析标记的敏感时间段,次要分析未标记时间段,忽略无标记段,并最终输出对源数据中的敏感信息的发现结果;其中,所述多编码器变换器包括:第一编码器,包括第一注意力网络,用于将所述图像特征向量编码处理为第一编码数据;第二编码器,包括第二注意力网络,用于将所述上下文数据编码处理为第二编码数据;解码器,其包括解码注意力网络;之后,将所述第一编码数据以及所述第二编码数据输入到所述多编码器变换器中对应的解码器,利用所述解码器的解码注意力网络对可疑信息进行时间标记;所述方法还包括从除所述第一数据源以外的一个或多个的其他数据源直接获取所述上下文数据;其中,步骤S300中还包括以下子步骤:S310:对所述图像特征向量进行图像帧序列处理,为图像特征向量的n个图像帧进行编号,每个图像帧的编号分别为f,f,...f;12nS320:对第i个图像帧f计算其可疑信息特征向量K和敏感信息特征向量iiL;iS330:对每个图像帧f抽取其图像特征向量F;iiS340:定义权重矩阵ω,对抽取的图像特征向量F进行加权;iiS350:计算视频数据的可疑信息重点指数X,即:
;上式中,表示向量对应元素相乘;σ表示非线性激活函数;S360:根据重点指数X,对源数据在时间序列上进行可疑信息标记。