← 返回列表
一种基于大数据的特征提取方法
申请人信息
- 申请人:苏州苏高新数字科技有限公司
- 申请人地址:215151 江苏省苏州市高新区马墩路18号1幢1082室
- 发明人: 苏州苏高新数字科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于大数据的特征提取方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410118600.1 |
| 申请日 | 2024/1/29 |
| 公告号 | CN117648569A |
| 公开日 | 2024/3/5 |
| IPC主分类号 | G06F18/213 |
| 权利人 | 苏州苏高新数字科技有限公司 |
| 发明人 | 刘华; 刘彦巍; 丁志东; 徐敏政; 朱鹏 |
| 地址 | 江苏省苏州市高新区马墩路18号1幢1082室 |
摘要文本
本申请提供一种基于大数据的特征提取方法,包括:获取待处理数据集,其中,待处理数据集包含多条文本数据;针对每条文本数据:对当前文本数据进行预处理,得到预处理文本;对预处理文本进行词嵌入特征提取,得到当前文本数据对应的词向量表示;基于当前文本数据对应的词向量表示,生成当前文本数据对应的特征向量。在进行词嵌入特征提取的过程中,改进的计算方式,使计算的不会过大,平衡稀有词和常见词的重要性,更准确地反映词的信息量,避免除零。计算加权词向量和加总词向量,构建每个词的加权词向量与预处理文本的加总词向量间的关系,形成融合词向量,利用模型提取特征向量,实现对文本数据的高精度特征提取。
专利主权项内容
1.一种基于大数据的特征提取方法,其特征在于,包括:获取待处理数据集,其中,待处理数据集包含多条文本数据;针对每条文本数据:对当前文本数据进行预处理,得到预处理文本;对预处理文本进行词嵌入特征提取,得到当前文本数据对应的词向量表示;基于当前文本数据对应的词向量表示,生成当前文本数据对应的特征向量。 更多数据: