数据处理的方法、装置、设备及可读存储介质
摘要文本
本申请实施例提供了一种数据处理的方法、装置、设备及可读存储介质。该方法包括:获取测试集中数据;采用训练后的改进随机森林算法获取测试集中数据的非线性特征数据;采用训练后的改进随机森林算法根据非线性特征数据对测试集中数据进行分类或预测,由于训练后的改进随机森林算法能够挖掘测试集数据中的非线性特征数据,而非只考虑原始特征数据,能够提高现有随机森林算法的模型效果,提高数据分类或预测的准确性,进而有效对数据进行分类或预测。 详见官网:www.macrodatas.cn
申请人信息
- 申请人:北京沃东天骏信息技术有限公司
- 申请人地址:100076 北京市北京经济技术开发区科创十一街18号院2号楼4层A402室
- 发明人: 北京沃东天骏信息技术有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 数据处理的方法、装置、设备及可读存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN201811559757.9 |
| 申请日 | 2018年12月20日 |
| 公告号 | CN111352926B |
| 公开日 | 2024年3月8日 |
| IPC主分类号 | G06F16/215 |
| 权利人 | 北京沃东天骏信息技术有限公司 |
| 发明人 | 张路一 |
| 地址 | 北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室 |
专利主权项内容
1.一种数据处理的方法,其特征在于,包括:获取测试集中数据;所述测试集中的数据为文本类测试样本、图像类测试样本以及视频帧类测试样本中的一种;采用训练后的改进随机森林算法获取所述测试集中数据的非线性特征数据;其中,所述训练后的改进随机森林算法中的训练后的基模型包括以下任意多种基模型:支持向量机模型,分类回归树模型,逻辑回归模型,神经网络模型,基于欧式距离模型;所述训练后的基模型是为训练前的改进随机森林算法中每组训练集对应的特征集配置对应的基模型及基模型的超参后,采用每个基模型对对应的训练集的特征集进行分类或预测,以对每个基模型进行训练得到的;采用训练后的改进随机森林算法根据所述非线性特征数据对所述测试集中数据进行分类或预测;所述采用训练后的改进随机森林算法获取所述测试集中数据的非线性特征数据,具体包括:对所述测试集中的数据分多次进行特征提取,形成测试集的多组特征数据;计算所述测试集的每组特征数据对应的非线性特征数据,以形成所述测试集对应的每个特征集;所述计算所述测试集的每组特征数据对应的非线性特征数据,以形成所述测试集对应的每个特征集,具体包括:对所述测试集的每组特征数据进行对应的非线性维度拓展,形成对应的拓展特征数据;按照特征选择策略从每组拓展特征数据中筛选出对应的非线性特征数据,以形成所述测试集的每个特征集;所述对所述测试集的每组特征数据进行对应的非线性维度拓展,形成对应的拓展特征数据,具体包括:对所述测试集的每组特征数据采用对应的笛卡尔积算法进行非线性维度拓展,以形成对应的第一拓展特征数据;对每组第一拓展特征数据采用对应的词向量算法进行向量化处理,以形成对应的第二拓展特征数据;其中,每组特征数据对应的笛卡尔积算法中的参数取值不同,每组第一拓展特征数据对应的词向量算法中的参数取值不同。