← 返回列表

基于锆石成分预测斑岩型矿床类型和储量的机器学习方法

申请号: CN202410024929.1
申请人: 中国地质大学(北京)
申请日期: 2024/1/8

摘要文本

(来自 ) 本发明提供了一种基于锆石成分预测斑岩型矿床类型和储量的机器学习方法,包括:数据库建设、数据预处理、机器学习ML方法、特征重要性分析、模型内置的计算方法、SHAP值方法、LightGBM算法、五折交叉验证、XGBoost算法、数据标准化、数据不平衡处理、缺失值处理、异常值处理。通过本发明的技术方案,通过广泛的数据搜集,构建矿床类型和铜钼储量有关的锆石数据库。利用机器学习算法建立分类模型,并进行特征重要性分析,对金属在斑岩中富集的规律进行解译。最后,将会做一个乌努格吐山矿床的案例分析,验证模型可靠性的同时为模型的使用提供范本。

专利详细信息

项目 内容
专利名称 基于锆石成分预测斑岩型矿床类型和储量的机器学习方法
专利类型 发明申请
申请号 CN202410024929.1
申请日 2024/1/8
公告号 CN117766068A
公开日 2024/3/26
IPC主分类号 G16C20/70
权利人 中国地质大学(北京)
发明人 温子豪; 许博; 孙晓洁
地址 北京市海淀区学院路29号

专利主权项内容

1.一种基于锆石成分预测斑岩型矿床类型和储量的机器学习方法,其特征在于, 具体包括以下步骤:步骤S1数据库建设:在PCR中搜集了来自全球17个国家82个斑岩铜矿床中的共计6032条锆石微量元素数据在PMR中搜集了来自37个矿床的1598条锆石微量元素数据,这些数据全部来自中国;PDT数据库是PCR,PMR的锆石数据在加上贫矿斑岩中锆石的数据,一共是9649条数据;PCR中按照铜储量将这些矿床标记为Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ共5个等级;PMR中按照钼储量将这些矿床标记为A, B, C共3个等级;PDT中,铜矿斑岩的锆石数据标记为Cu,钼矿斑岩的锆石数据标记为Mo,贫矿斑岩的锆石数据标记为barren;步骤S2数据预处理:步骤S2-1异常值处理:所有数据库中的La和Pr元素被删除;采用四分位数间距法,利用数据的四分位数来测量数据的分散程度,并基于四分位数的差异来判断是否存在异常值;步骤S2-2缺失值处理:选用KNN插值法填补空缺值,对于每个包含缺失值的数据点,计算它与数据集中所有其他数据点之间的距离;根据计算出的距离(公式1),选择与缺失值数据点最接近的K个(K=3)邻居,用于估计缺失值(公式2),distance(A, B)= √(Σni=1(A-B)) (公式1)ii2其中,A 和 B 是两个样本,n 是特征的数量;
=(ΣK i=1 ‧)/(ΣK i=1 ) (公式2)ŶwiYiwi
是缺失值的估计,是邻居样本的已知值,是与邻居的距离相关的权重;ŶYiwi步骤S2-3数据标准化:采用Z-Score方法进行数据标准化,将数据转换为具有均值为0和标准差为1的标准正态分布(公式3),Z = (X - μ) / σ(公式3)μ和σ分别为每个特征的均质和标准差;步骤S2-4数据不平衡处理:样本数量较少的类别将获得较高的权重(公式4),从而增加其在模型训练中的影响,Weight=(Total Samples)/(Number of Samples in Class) (公式4)class“Weight”是类别的权重,“Total Samples”是总样本数,“Number of Samples inClass”是属于该类别的样本数;class步骤S3机器学习ML方法:采用监督学习算法,自动地将数据分为训练集和测试集,设置为9 : 1,分别用来训练数据和检验;具体包括以下步骤:步骤S3-1XGBoost算法:对于XGBoost算法,首先定义目标函数,该函数由损失函数和正则化项组成,用于衡量模型拟合能力和控制模型复杂度(公式5);然后,通过迭代进行梯度提升,每轮迭代都计算损失函数的负梯度,以确定下一个弱学习器的权重;样本会根据之前的误差进行加权,以关注误分类的样本;最终,将所有弱学习器的预测结果组合,生成最终的模型预测;Objective = Σni=1(, ())+γ‧Ω() (公式5)Lyifxif“Objective”是目标函数,n是样本的数量,(, ())是损失函数,用于衡量模型预测()与真是标签之间的差异,γ是正则化项的系数,Ω()是模型的正则化项;Lyifxifxiyiff步骤S3-2LightGBM算法:对于LightGBM算法,首先准备训练数据集,然后构建一个梯度提升树模型:在每轮迭代中,LightGBM使用直方图算法将数据分桶,然后对每个桶内的梯度信息进行累积,从而减少内存消耗和计算复杂度(公式6);通过遍历分桶,选择最佳的分割点来构建树结构,同时使用叶子中的梯度信息来更新叶子值,以最小化损失函数;最终,将多颗树的预测结果组合,生成最终的模型预测,Histogram=Σ(公式6)data in the binGradient“Histogram”代表直方图,“data in the bin”代表被放入直方图箱中的数据,“Gradient”代表损失函数对于当前样本的梯度;步骤S3-3五折交叉验证:最后,采用五折交叉验证是一种机器学习模型评估方法,它将数据分为五个相等的子集,依次将其中一个作为验证集,其余四个作为训练集,进行五轮训练和评估;步骤S4特征重要性分析:采用模型内置和SHAP值两种特征重要性的计算方法,来相互验证;步骤S4-1模型内置的计算方法:特征重要性得分是通过考虑所有树中每个特征的分裂次数和分裂增益的累积效果来计算的(公式7),Feature Importance Score=Σ(all trees)(split count×split gain) (公式7)“Σ(all trees)”表示对所有树的贡献进行求和, “split count”表示分裂次数,“split gain”表示分裂增益;步骤S4-1SHAP值方法:使用Shapley值理论进行特征重要性计算,对于树模型采用Tree SHAP算法(公式8);通过对每个特征在不同位置的贡献进行加权平均,考虑所有可能的特征组合,得到每个特征的Shapley值,()=ΣM j=1(1/M)‧ji() (公式8)ФifФfM是树的叶子节点的数量,ji()是第j个叶子节点对于特征i的贡献,可以通过遍历树结构计算得到。Фf。