← 返回列表

一种基于大数据的特征提取方法

申请号: CN202410118600.1
申请人: 苏州苏高新数字科技有限公司
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 一种基于大数据的特征提取方法
专利类型 发明申请
申请号 CN202410118600.1
申请日 2024/1/29
公告号 CN117648569A
公开日 2024/3/5
IPC主分类号 G06F18/213
权利人 苏州苏高新数字科技有限公司
发明人 刘华; 刘彦巍; 丁志东; 徐敏政; 朱鹏
地址 江苏省苏州市高新区马墩路18号1幢1082室

摘要文本

本申请提供一种基于大数据的特征提取方法,包括:获取待处理数据集,其中,待处理数据集包含多条文本数据;针对每条文本数据:对当前文本数据进行预处理,得到预处理文本;对预处理文本进行词嵌入特征提取,得到当前文本数据对应的词向量表示;基于当前文本数据对应的词向量表示,生成当前文本数据对应的特征向量。在进行词嵌入特征提取的过程中,改进的计算方式,使计算的不会过大,平衡稀有词和常见词的重要性,更准确地反映词的信息量,避免除零。计算加权词向量和加总词向量,构建每个词的加权词向量与预处理文本的加总词向量间的关系,形成融合词向量,利用模型提取特征向量,实现对文本数据的高精度特征提取。

专利主权项内容

1.一种基于大数据的特征提取方法,其特征在于,包括:获取待处理数据集,其中,待处理数据集包含多条文本数据;针对每条文本数据:对当前文本数据进行预处理,得到预处理文本;对预处理文本进行词嵌入特征提取,得到当前文本数据对应的词向量表示;基于当前文本数据对应的词向量表示,生成当前文本数据对应的特征向量。 更多数据: