← 返回列表

一种用于材料与化工行业科技情报的数据处理方法

申请号: CN202410199914.9
申请人: 北京大学深圳研究生院
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 一种用于材料与化工行业科技情报的数据处理方法
专利类型 发明申请
申请号 CN202410199914.9
申请日 2024/2/23
公告号 CN117787249A
公开日 2024/3/29
IPC主分类号 G06F40/205
权利人 北京大学深圳研究生院
发明人 龙云凤; 孟鸿; 任志宽
地址 广东省深圳市南山区西丽深圳大学城北大校区

摘要文本

一种用于材料与化工行业科技情报的数据处理方法,属于科技情报的数据处理技术领域。为解决文本数据中目标实词与非目标实词中的不平衡的问题,本发明采集材料与化工行业科技情报,得到材料与化工行业科技情报信息数据,提取材料与化工行业科技情报信息数据中的实词向量,构建实词向量矩阵计算实词向量矩阵中实词长度,构建实词长度矩阵;利用实词的长度对撰写错误的实词进行判断,对实词向量矩阵中撰写错误的实词进行修正,对修正的实词向量矩阵中的每个实词进行编码,设定实词数量阈值,对修正的实词的编码矩阵进行实词数量判断,然后进行不平衡数据处理,完成一种用于材料与化工行业科技情报的数据处理。本发明提高材料与化工科技情报的质量。

专利主权项内容

1.一种用于材料与化工行业科技情报的数据处理方法,其特征在于,包括如下步骤:S1、采集材料与化工行业科技情报,得到材料与化工行业科技情报信息数据,提取材料与化工行业科技情报信息数据中的实词向量gs,构建实词向量矩阵,,其中,B为实词总数量;S2、基于步骤S1构建的实词向量矩阵,计算实词向量矩阵GS中实词长度/>,构建实词长度矩阵/>;S3、利用实词的长度对撰写错误的实词进行判断,然后对实词向量矩阵中撰写错误的实词进行修正,得到修正的实词向量矩阵;S4、对步骤S3得到的修正的实词向量矩阵中的每个实词进行编码,设定目标实词编码为1,非目标实词编码为0,构建修正的实词的编码矩阵/>,其中为修正的实词的编码矩阵中的第B个元素,修正的实词的位置矩阵,其中/>为修正的实词的位置矩阵中的第B个元素,设定实词数量阈值,对修正的实词的编码矩阵进行实词数量判断,当修正的实词的编码矩阵中实词数量大于实词数量阈值时,进行下一步,当修正的实词的编码矩阵中实词数量小于等于实词数量阈值时,完成一种用于材料与化工行业科技情报的数据处理;S5、对步骤S3得到的修正的实词向量矩阵,基于步骤S4构建的修正的实词的编码矩阵、修正的实词的位置矩阵进行不平衡数据处理,完成一种用于材料与化工行业科技情报的数据处理。