一种用于材料与化工行业科技情报的数据处理方法
申请人信息
- 申请人:北京大学深圳研究生院
- 申请人地址:518055 广东省深圳市南山区西丽大学城北大园区
- 发明人: 北京大学深圳研究生院
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种用于材料与化工行业科技情报的数据处理方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410199914.9 |
| 申请日 | 2024/2/23 |
| 公告号 | CN117787249A |
| 公开日 | 2024/3/29 |
| IPC主分类号 | G06F40/205 |
| 权利人 | 北京大学深圳研究生院 |
| 发明人 | 龙云凤; 孟鸿; 任志宽 |
| 地址 | 广东省深圳市南山区西丽深圳大学城北大校区 |
摘要文本
一种用于材料与化工行业科技情报的数据处理方法,属于科技情报的数据处理技术领域。为解决文本数据中目标实词与非目标实词中的不平衡的问题,本发明采集材料与化工行业科技情报,得到材料与化工行业科技情报信息数据,提取材料与化工行业科技情报信息数据中的实词向量,构建实词向量矩阵计算实词向量矩阵中实词长度,构建实词长度矩阵;利用实词的长度对撰写错误的实词进行判断,对实词向量矩阵中撰写错误的实词进行修正,对修正的实词向量矩阵中的每个实词进行编码,设定实词数量阈值,对修正的实词的编码矩阵进行实词数量判断,然后进行不平衡数据处理,完成一种用于材料与化工行业科技情报的数据处理。本发明提高材料与化工科技情报的质量。
专利主权项内容
1.一种用于材料与化工行业科技情报的数据处理方法,其特征在于,包括如下步骤:S1、采集材料与化工行业科技情报,得到材料与化工行业科技情报信息数据,提取材料与化工行业科技情报信息数据中的实词向量gs,构建实词向量矩阵,,其中,B为实词总数量;S2、基于步骤S1构建的实词向量矩阵,计算实词向量矩阵GS中实词长度/>,构建实词长度矩阵/>;S3、利用实词的长度对撰写错误的实词进行判断,然后对实词向量矩阵中撰写错误的实词进行修正,得到修正的实词向量矩阵;S4、对步骤S3得到的修正的实词向量矩阵中的每个实词进行编码,设定目标实词编码为1,非目标实词编码为0,构建修正的实词的编码矩阵/>,其中为修正的实词的编码矩阵中的第B个元素,修正的实词的位置矩阵,其中/>为修正的实词的位置矩阵中的第B个元素,设定实词数量阈值,对修正的实词的编码矩阵进行实词数量判断,当修正的实词的编码矩阵中实词数量大于实词数量阈值时,进行下一步,当修正的实词的编码矩阵中实词数量小于等于实词数量阈值时,完成一种用于材料与化工行业科技情报的数据处理;S5、对步骤S3得到的修正的实词向量矩阵,基于步骤S4构建的修正的实词的编码矩阵、修正的实词的位置矩阵进行不平衡数据处理,完成一种用于材料与化工行业科技情报的数据处理。