一种基于显著性P值和XGBoost的浮选回收率预测方法

阅读：评论：0

一种基于显著性p值和xgboost的浮选回收率预测方法
技术领域
1.本发明涉及一种基于显著性p值和xgboost的浮选回收率预测方法，属于选矿技术领域。

背景技术：

2.浮选回收率指的是精矿中有价金属质量与原矿中有价金属质量的百分比。在选矿领域中，这项选矿指标非常重要，因为它反映了选矿过程中有价金属的回收程度，选矿工作质量以及选矿技术水平。选矿过程要在确保精矿品位的前提下，最大程度的提高浮选回收率。在实际选矿过程中，由于浮选流程时间长以及检测能力的束缚，浮选回收率只能通过取样化验，无法实时监控，这样导致数据严重滞后于实际情况。浮选回收率预测指的是通过历史工艺指标值预测出未来浮选回收率。这样就能够及时有效的调整生产设定值。到目前为止，一般采用的是一元和多元线性回归模型，丰富泡沫分析和神经网络对矿石回收率进行预测；如桂如金采用一元线性回归方法分别研究了铅、锌浮选回收率与原矿品位、药剂用量的相关性，大体预测和控制回收率。黄橙通过实际生产数据指标，建立了金、铜回收率与原矿铜、硫品位的多元线性回归模型。周开军等以浮选泡沫图像特征作为模型输入，采用最小二乘支持向量机(ls-svm)方法预测回收率。刘青等基于 bp神经网络建立了金矿选矿浮选回收率。一元和多元线性回归模型对矿石回收率的预测准确率偏低，无法精准的预测实际情况，并且一元和多元回归模型的建立过程对开发者的经验要求较高。基于浮选泡沫图像特征预测浮选回收率受限于工厂装备水平。与一元和多元回归模型，神经网络浮选模型预测精度较高，然而运算量较大。综上所述，一元和多元回归模型运算量较少，但是预测精度有待提高；神经网络模型预测精度较高，但是运算量大且对调参知识依赖较高。
3.相比于神经网络，xgboost能够更好地处理表格数据，并具有更强的可解释性，另外具有易于调参、输入数据不变性等优势。关于xgboost回归模型预测某变量的方法，人们也有一些尝试，如苏天培通过xgboost以用户血糖含量为目标变量进行预测，该模型可以精确预测糖尿病，为提供了技术支持；郑鹏通过 xgboost精准预测成都市二手房的价格；胡智辉通过传感器收集的大量能耗数据，基于xgboost模型对船舶能耗进行了预测，反应精度可以达到秒级；高欣发明了一种基于加权列抽样xgboost的图像目标分类方法，提高了图像目标分类的平均准确率。但到目前为止，还未见到基于显著性p值结合xgboost来预测浮选回收率这一方面的相关报道。

技术实现要素：

4.针对一元和多元线性回归模型预测能力的不足，以及神经网络预测模型运算量较大且对调参知识依赖高的问题。本文首次通过计算和筛选p值来选取有效自变量，然后通过有效自变量的组合分别得到xgboost模型的输入变量，利用训练集数据训练xgboost模型来预测浮选回收率。本发明通过p值计算和筛选缩小有效自变量范围，达到降低运算量的目的；通过xgboost降低预测模型对调参知识的依赖；通过p值计算和xgboost融合建立了自动
化、低运算量和高精度的浮选预测模型，为有效解决选矿流程大滞后问题提供技术支撑。
5.本发明通过以下技术方案实现。
6.一种基于显著性p值和xgboost的浮选回收率预测方法；包括如下步骤：
7.步骤一矿山数据的获取：矿山数据包括影响浮选回收率的变量xi，以及该变量对应的浮选回收率y；i代表影响浮选回收率的变量数目。
8.步骤二数据预处理：对数据的预处理是非常必要的环节，由于原始数据存在缺失值，所以需要删除带缺失值的行，以及超出正常范围的值，如浮选回收率 y小于0或者大于1，变量xi小于0等。在本发明中，由于从工厂导出来的变量有时候因为出错会成为负值，而理论上所有变量至少都是大于或等于0。
9.步骤三p值计算与筛选：利用训练集数据，计算所有自变量针对于浮选回收率的显著性p值，通过设定p值阈值来筛选有效自变量。通过looper函数得到结果中所有p值，当最大p值大于p值阈值则删除对应的自变量，然后进入下一次循环，当最大p值小于p值阈值则返回结果，得到有效自变量。
10.looper函数代码如下所示：
[0011][0012][0013]
步骤四xgboost模型：将步骤三中选定的有效自变量分组，得到xgboost模型的输
入变量，基于训练集数据，分别训练xgboost模型，再利用测试集数据测试所有xgboost模型的mape值。通过mape指标衡量模型预测的准确性，mape 值越小，说明预测结果更准确，模型预测能力越好。
[0014]
本发明是一种基于显著性p值和xgboost的浮选回收率预测方法；矿山数据由选矿浮选生产过程累积和提供。
[0015]
本发明是一种基于显著性p值和xgboost的浮选回收率预测方法；步骤三的基于p值阈值，得到的有效自变量为xj,j为有效自变量的数目，有效自变量数目 j小于或等于变量数目i。
[0016]
作为优选方案，一种基于显著性p值和xgboost的浮选回收率预测方法；p 值阈值设为0.00-0.20、进一步优选为0-0.05。
[0017]
本发明是一种基于显著性p值和xgboost的浮选回收率预测方法；对所得的 h个有效变量x1,x2,x3…
,x
j-1
,xj进行分组，分批作为xgboost的输入变量；输出变量是对应的浮选回收率y。
[0018]
本发明是一种基于显著性p值和xgboost的浮选回收率预测方法；在模型训练过程中，根据超参数网络搜索(gridsearchcv)对xgboost进行多个超参数组合的遍历；在xgboost模型中，对max_depth,subsample,colsample_bytree和 n_estimators等参数进行遍历，自动选择最优参数组合，形成最优预测模型。
[0019]
本发明是一种基于显著性p值和xgboost的浮选回收率预测方法；当步骤(4) 中输入有效自变量组合是一项，且输出变量是浮选回收率为y时，输入的有效变量在(x1,x2,x3…
,xj)里面选择一个变量，总共会有个xgboost模型；
[0020]
当步骤(4)中输入有效自变量组合为2项，且输出变量是浮选回收率为y时，输入变量在(x1,x2,x3…
,x
j-1
,xj)里面选择2个变量，总共会有个xgboost模型；
[0021]
当步骤(4)中输入有效自变量组合为3项，且输出变量是浮选回收率为y时，输入变量在(x1,x2,x3…
,x
j-1
,xj)里面选3个变量，总共会有个xgboost模型；
[0022]
当步骤(4)中输入变量组合为j-1项，且输出变量是浮选回收率为y时，输入变量在(x1,x2,x3…
,x
j-1
,xj)里面选j-1个变量，总共会有个xgboost模型。
[0023]
当步骤(4)中输入变量组合为j项，且输出变量是浮选回收率为y时，输入变量在(x1,x2,x3…
,x
1-j
,xj)里面选j个变量，总共会有个xgboost模型。
[0024]
本发明是一种基于显著性p值和xgboost的浮选回收率预测方法；当步骤(4) 中输入有效自变量组合为n项，且输出变量是浮选回收率为y时，输入变量在 (x1,x2,x3…
,x
j-1
,xj)里面选择n个变量，总共会有个xgboost模型；所述n 为大于等于1的正整数。
[0025]
本发明是一种基于显著性p值和xgboost的浮选回收率预测方法；得到的所有xgboost模型中，mape值最小的模型即为最佳的浮选回收率预测模型。
[0026]
本发明首次提出通过显著性p值和xgboost的融合，并用其来预测浮选回收率。本发明实现了对矿山数据的有效筛选并选取相关性最好的变量进行xgboost 建模，通过mape值自动选取最佳的xgboost模型。本发明利用矿山数据，先进行显著性p值的运算和获取，通过显著性p值的判定，获得有效自变量，然后对有效自变量进行分组，并代入xgboost中；进
行运算，最后以mape值最小化的判据；获得最佳浮选回收率预测模型；这大大的简化了运算量，降低了对调参知识的依赖，而且显著提升了预测精度。综上所述，本发明提高了浮选回收率建模的自动化程度和精度，便于矿山从业人员的使用，从而有助于实现矿山的高效智能化运行。同时也为矿山浮选工艺的优化指明了一条新的道路。
附图说明
[0027]
图1是本发明预测方法流程图。图2为实施例1中两种浮选回收率预测模型预测值与实际值的比较图。图3为实施例1中多元线性回归模型浮选回收率预测误差值的分布图。图4为实施例1中xgboost模型浮选回收率预测误差值的分布图。图5为实施例2中两种浮选回收率预测模型预测值与实际值的比较图。图6为实施例2中多元线性回归模型浮选回收率预测误差值的分布图。图7为实施例2中xgboost模型浮选回收率预测误差值的分布图。
具体实施例
[0028]
实施例1
[0029]
结合附图和具体实施方式，以铜矿浮选为例对本发明的实施方式作详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。
[0030]
表1
[0031]
磨矿粒度-200目％原矿cu％原矿ascu％原矿mo％原矿(ascu/tcu)cu回收率(％)69.30.3560.0120.0120.03590.066.30.4130.0270.0100.06586.167.20.3170.0120.0110.03988.672.90.3170.0150.0120.04688.572.30.4110.0390.0120.09682.674.10.3880.0270.0270.07085.773.00.3870.0180.0150.04788.672.90.3950.0150.0140.03790.370.50.4100.0160.0200.03890.970.40.4160.0150.0180.03586.771.10.4820.0150.0140.03090.171.70.4770.0140.0140.02891.674.90.5250.0120.0150.02493.172.90.5480.0120.0130.02392.372.10.5180.0150.0090.02891.571.50.5180.0140.0080.02691.674.00.4840.0160.0070.03392.275.70.4850.0170.0080.03594.474.70.5140.0180.0080.03591.9
[0032]
如图1所示，基于显著性p值和xgboost的铜矿回收率预测方法过程如下：
[0033]
矿山数据描述：本实施例的数据包括"磨矿粒度-200目％","原矿cu％","原矿 ascu％","原矿mo％","原矿(ascu/tcu)"和"cu回收率(％)"，部分数据如表1所示。其中“磨矿粒度-200目％”表示磨矿后-200目的颗粒所占质量百分数，“原矿 cu％”表示原矿中cu的质量百分含量(即cu的品位)；“原矿ascu％”表示原矿中可用酸溶解铜品位；“原矿mo％”表示原矿中mo的质量百分含量(即mo 的品位)；"原矿(ascu/tcu)"表示可溶解铜与总的铜品位的比值；“cu回收率(％)”表示该实验条件下浮选后，cu的回收率。
[0034]
数据预处理：对数据的预处理是非常必要的环节，由于原始数据存在缺失值，所以需要删除带缺失值的行。去掉缺失值以后，训练集的数据量由1187行变为 1157行，测试集的数据量由71行变为70行。
[0035]
p值计算与筛选：输入变量即自变量是指"磨矿粒度-200目％","原矿cu％"," 原矿ascu％","原矿mo％","原矿(ascu/tcu)"这5个自变量。输出变量即因变量是指"cu回收率(％)"。result.summary()则是生成一份结果描述，其内容如表2所示。
[0036]
表2
[0037][0038]
输出的结果中，主要看“coef”、“t”和“p》|t|”这三列。coef是回归系数，const这个值就是回归常数，而“t”和“p》|t|”这两列是用来判断每个自变量和cu回收率(％)的线性显著关系。基于p值阈值为0.01，通过looper函数得到结果中所有p值，再得到最大p值，当最大p值大于p值阈值则删除对应的自变量，然后进入下一次循环，当最大p值小于p值阈值则返回结果，得到有效变量。最后结果如表3所示。
[0039]“t”和“p》|t|”这两列是等价的，使用时选择其中一个就行，其主要用来判断每个自变量和y的线性相关显著性关系。
[0040]
t：t统计量，等于回归系数除以标准差，用于对每个回归系数分别进行检验，检验每个自变量对因变量的影响是否显著。如果某个自变量的影响不显著，意味着可以从模型中剔除这个自变量。
[0041]
[0.025,0.975]：回归系数的置信区间(confidence interval)的下限、上限，某个回归系数的置信区间以95％的置信度包含该回归系数。注意这并不是指样本数据落在这一区间的概率为95％。
[0042]
looper函数代码如下所示：
[0043][0044]
表3
[0045][0046][0047]
表3中有效变量为"磨矿粒度-200目％"和"原矿(ascu/tcu)"这2个变量。我们得到的mape为3.03％。
[0048]
xgboost模型简介：xgboost是陈天奇等人开发的一个开源机器学习项目，高效地实现了gbdt算法并进行了算法和工程上的许多改进。xgboost本质上还是一个gbdt，但是力争把速度和效率发挥到极致，两者都是boosting方法。
[0049]
xgboost是优化过后的集成树模型，从梯度提升树模型改进而来。树的集成模型如下所示：
[0050][0051]
式中：为第i个样本的模型预测值，即第i个样本的浮选回收率预测值；k为树的数量；f为树的集合空间；xi表示第i个有效自变量；fk对应第k棵独立的树的结构q和叶子权重w相关状况。
[0052]
xgboost模型损失函数l如下所示：
[0053][0054]
式中：第1部分为第i个样本的浮选回收率预测值和真实浮选回收率yi之间的训练误差；第2部分为树的复杂度之和，是用于控制模型的复杂度的正则项，即
[0055][0056]
式中γ和λ为对模型的惩罚系数，其值人为设定，在本发明中设定γ为0，设定λ为1，这样可以避免模型出现过拟合。
[0057]
损失函数l在序列最小化过程中，每一轮加入的增量函数f
t
(xi)尽可能使损失函数最大程度的减小。第t轮的目标函数可写为：
[0058][0059]
对于上式采用二阶泰勒展开的方式来近似目标函数。定义第j棵树每一叶子中的样本集合为
[0060]
ij＝{i|q(xi＝j)}。其中，分别为损失函数的一、二阶导数。由此可得
[0061][0062]
定义可得
[0063][0064]
对w求偏导可得
[0065]
[0066]
将权值代入目标函数，可得
[0067][0068]
损失函数越小代表模型越好，采用贪心算法对子树进行划分，并枚举可行的分割点，即每次对已有的叶子加入新的分割，并计算因此获得的最大增益。增益l
gain
的计算方式如下：
[0069][0070]
式中：第1、2项分别表示左、右子树分裂后产生的增益；第3项为不进行子树分裂的增益。
[0071]
xgboost的实现是通过引用xgboost库中的xgboost回归模型 (xgbregressor)。
[0072]
xgboost库建模流程：读取数据；设置参数；训练模型；预测结果。
[0073]
其中，训练模型时，引入训练集中的有效输入变量和输出变量"cu回收率 (％)"，进行模型训练；接着预测模型引入测试集中的有效输入变量进行预测得到输出变量"cu回收率(％)"的预测值。
[0074]
基于p值阈值0.01所选取出来的2个有效变量"磨矿粒度-200目％"和"原矿(ascu/tcu)"分组得到xgboost的输入变量。
[0075]
当输入变量为1项时，如"磨矿粒度-200目％"。输出变量是"cu回收率(％)"。 mape为3.79％。
[0076]
当输入变量为1项时，如"原矿(ascu/tcu)"。输出变量是"cu回收率(％)"。 mape为2.89％。
[0077]
当输入变量为2项时，如"磨矿粒度-200目％”和"原矿(ascu/tcu)"。输出变量是"cu回收率(％)"。mape为1.98％。
[0078]
由上面的实验可知，当输入变量为"磨矿粒度-200目％”和"原矿(ascu/tcu)" 时。"cu回收率(％)"的mape最低，为1.98％。与多元线性回归的mape3.03％降低了35％。由此可知xgboost模型预测能力相比多元线性回归更好。
[0079]
表4
[0080][0081]
当输入变量为"磨矿粒度-200目％”和"原矿(ascu/tcu)"时：
[0082]
在(3)式中，reg_lambda＝λ＝1，reg_lambda代表l2正则项的权重系数。
[0083]
在(1)式中，k＝n_estimators＝33，n_estimators代表树的个数。
[0084]
colsample_bytree＝0.4，colsample_bytree代表列采样率，也就是特征采样率，在建立树时对特征采样的比例。
[0085]
learning_rate＝0.1，learning_rate代表学习率，每次迭代更新权重时的步长。值越小，训练的越慢。
[0086]
max_depth＝2，max_depth代表最大数深度。
[0087]
alpha＝6，alpha代表l1正则化，增加该值会让模型更加收敛。
[0088]
图2所示为两种浮选回收率预测模型预测值与实际值的比较。从图中可以看出，xgboost浮选回收率预测模型的预测值更接近实际浮选回收率。
[0089]
图3反映了多元线性回归模型浮选回收率预测误差值的分布。文中所指的误差为相对误差，其计算公式为式中，er为相对误差，yi为浮选回收率预测值，yi'为浮选回收实际值。
[0090]
对多元线性回归模型，当预测相对误差在
±
5％时，模型的命中率是77％；当预测相对误差在
±
3％时，模型的命中率只有60％。
[0091]
图4反映了xgboost模型浮选回收率预测误差值的分布。
[0092]
对xgboost模型,当预测相对误差在
±
5％时，模型的命中率是94％；当预测相对误差在
±
3％时，模型的命中率只有76％。
[0093]
两种预测模型精度比较如表5所示：
[0094]
表5
[0095][0096]
与多元线性回归模型相比，xgboost模型的预测精度更高。与此同时，基于显著性p值和xgboost的预测模型能够实现自动化运算，减少对使用人员经验、调参和建模知识的依赖，降低运算量。利用基于显著性p值和xgboost方法建立铜矿流程浮选回收率预测模型是一个较好的选择。
[0097]
实施例2
[0098]
如图1所示，基于显著性p值和xgboost的钨矿回收率预测方法过程如下：
[0099]
矿山数据描述：本文的数据包括"磨矿粒度-200目％","原矿wo3％","原矿 caf2％","原矿sn％","原矿caco3％"和"wo3回收率％"。部分数据如表6所示。其中 "磨矿粒度-200目％"表示表示磨矿后-200目的颗粒所占质量百分数,"原矿wo3％" 表示表示原矿中wo3的质量百分含量(即wo3的品位),"原矿caf2％"表示表示原矿中caf2的质量百分含量(即caf2的品位),"原矿sn％"表示表示原矿中sn的质量百分含量(即sn的品位),"原矿caco3％"表示表示原矿中caco3的质量百分含量(即caco3的品位)。“wo3回收率(％)”表示该实验条件下浮选后，wo3的回收率。
[0100]
表6
[0101][0102]
数据预处理：对数据的预处理是非常必要的环节，由于原始数据存在缺失值，所以需要删除带缺失值的行。去掉缺失值以后，训练集的数据量由1184行变为1157行，测试集的数据量为97行。
[0103]
p值计算与筛选：输入变量即自变量是指"磨矿粒度-200目％","原矿wo3％"," 原矿caf2％","原矿sn％","原矿caco3％"这5个自变量。输出变量即因变量是指 "wo3回收率％"。result.summary()则是生成一份结果描述，其内容如表7所示。
[0104]
表7
[0105][0106]
在这个结果中，我们主要看“coef”、“t”和“p》|t|”这三列。coef是回归系数，const这个值就是回归常数，而“t”和“p》|t|”这两列是用来判断每个自变量和wo3回收率(％)的线性显著关系。基于p值阈值0.01，通过looper 函数得到结果中所有p值，再得到最大p值，当最大p值大于p值阈值则删除对应的自变量，然后进入下一次循环，当最大p值小于p值阈值则返回结果，得到有效变量。其结果如表8所示。
[0107]“t”和“p》|t|”这两列是等价的，使用时选择其中一个就行，其主要用来判断每个自变量和y的线性显著关系。
[0108]
t：t统计量，等于回归系数除以标准差，用于对每个回归系数分别进行检验，检验每个自变量对因变量的影响是否显著。如果某个自变量的影响不显著，意味着可以从模型中剔除这个自变量。
[0109]
[0.025,0.975]：回归系数的置信区间(confidence interval)的下限、上限，某个回归系数的置信区间以95％的置信度包含该回归系数。注意并不是指样本数据落在这一区间的概率为95％。
[0110]
looper函数代码如下所示：
[0111][0112]
表8
[0113] coefstd errtp》|t|[0.0250.975]const87.202.6732.610.00081.96092.452原矿wo3％-22.856.80-3.350.001-36.209-9.499原矿caco3％-0.690.10-6.880.000-0.894-0.497
[0114]
表8中有效变量为"原矿wo3％"和"原矿caco3％"这2个变量。得到的mape 为5.20％。
[0115]
xgboost的实现是通过引用xgboost库中的xgboost回归模型 (xgbregressor)。
[0116]
xgboost库建模流程：读取数据；设置参数；训练模型；预测结果。
[0117]
其中，训练模型时，引入训练集中的有效输入变量和输出变量"wo3回收率％"，进行模型训练；接着预测结果引入测试集中的有效输入变量进行预测得到输出变量"wo3回收率％"的预测值。
[0118]
基于p值阈值0.01所选取出来的2个有效变量"原矿wo3％"和"原矿 caco3％"分组得到xgboost的输入变量。
[0119]
当输入变量为1项时，如"原矿wo3％"。输出变量是"wo3回收率％"。mape 为7.06％。
[0120]
当输入变量为1项，如"原矿caco3％"。输出变量是"wo3回收率％"。mape 为2.76％。
[0121]
当输入变量为2项时，如"原矿wo3％”和"原矿caco3％"。输出变量是"wo3回收率％"。mape为2.15％。
[0122]
由上面实验可知，当输入变量为"原矿wo3％”和"原矿caco3％"时。"wo3回收率％"的mape最低，为2.15％。多元线性回归的mape为5.20％，由此可知xgboost模型预测能力相比多元线性回归更好。xgboost模型参数如表9所示：
[0123]
表9
[0124][0125][0126]
当输入变量为2项时，如"原矿wo3％”和"原矿caco3％"：
[0127]
在(3)式中，reg_lambda＝λ＝1，reg_lambda代表l2正则项的权重系数。
[0128]
在(1)式中，k＝n_estimators＝20000，n_estimators代表树的个数。
[0129]
colsample_bytree＝0.4，colsample_bytree代表列采样率，也就是特征采样率，在建立树时对特征采样的比例。
[0130]
learning_rate＝0.1，learning_rate代表学习率，每次迭代更新权重时的步长。值越小，训练的越慢。
[0131]
max_depth＝2，max_depth代表最大数深度。
[0132]
alpha＝6，alpha代表l1正则化，增加该值会让模型更加收敛。
[0133]
图5所示为两种浮选回收率预测模型预测值与实际值的比较。从图中可以看出，xgboost浮选回收率预测模型的预测值更接近实际浮选回收率。
[0134]
图6反映了多元线性回归模型浮选回收率预测误差值的分布。文中所指的误差为相对误差，其计算公式为式中，er为相对误差，yi为浮选回收率预测值，yi'为浮选回收实际值。
[0135]
对多元线性回归模型，当预测相对误差在
±
5％时，模型的命中率是49％；当预测相对误差在
±
3％时，模型的命中率只有29％。
[0136]
图7反映了xgboost模型浮选回收率预测误差值的分布。
[0137]
对xgboost模型,当预测相对误差在
±
5％时，模型的命中率是91％；当预测相对误差在
±
3％时，模型的命中率是81％。
[0138]
两种预测模型精度比较如表10所示：
[0139]
表10
[0140]
比较二者的预测精度，可知xgboost模型能更好地表征浮选回收率的特征，运用xgboost模型方法建立钨矿流程浮选回收率预测模型是一个较好的选择。
[0141]
本发明的背景部分可以包含关于本发明的问题或环境的背景信息，而不一定是描述现有技术。因此，在背景技术部分中包含的内容并不是申请人对现有技术的承认。
[0142]
以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中，参考术语“一种实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点，但应当理解，在不脱离专利申请的保护范围的情况下，可以在本文中进行各种改变、替换和变更。

技术特征：

1.一种基于显著性p值和xgboost的浮选回收率预测的方法，其特征在于；包括如下步骤：步骤一矿山数据的获取：矿山数据包括影响浮选回收率的变量x
i
，以及该变量对应的浮选回收率y，i代表影响浮选回收率的变量数目；步骤二数据预处理：删除带缺失值的行，以及超出正常范围的值，所述超出正常范围的值的情况包括浮选回收率y小于0、回收率y大于1，变量x
i
小于0中的至少一种情况；步骤三 p值计算与筛选：利用训练集数据，计算所有变量针对于浮选回收率的显著性p值，通过设定p值阈值来筛选有效变量，通过looper函数得到结果中所有p值，再得到最大p值，当最大p值大于p值阈值则删除对应的自变量，然后进入下一次循环，当最大p值小于p值阈值则返回结果，得到有效自变量；步骤四 xgboost模型：通过第三步选定的有效自变量进行分组得到xgboost模型的输入变量，基于训练集数据，分别训练xgboost模型，再利用测试集数据测试所有xgboost模型的mape值；通过mape指标衡量模型预测的准确性，mape值越小，说明模型预测能力越好。2.根据权利要求1所述的基于显著性p值和xgboost的浮选回收率预测的方法，其特征在于：矿山数据由选矿浮选生产过程累积和提供。3.根据权利要求1所述的基于显著性p值和xgboost的浮选回收率预测的方法，其特征在于：步骤三的基于p值阈值，得到的有效自变量为x1,x2,x3…
,x
j-1
,x
j
,j为有效自变量的数目，有效自变量数目j小于或等于变量数目i。4.根据权利要求1所述的基于显著性p值和xgboost的浮选回收率预测的方法，其特征在于：p值阈值设为0.00-0.20。5.根据权利要求1所述的基于显著性p值和xgboost的浮选回收率预测的方法，其特征在于：对j个有效变量x1,x2,x3…
,x
j-1
,x
j
进行分组，分批作为xgboost的输入变量；输出变量是对应的浮选回收率y。6.根据权利要求1所述的基于显著性p值和xgboost的浮选回收率预测的方法，其特征在于：在模型训练过程中，根据超参数网络搜索对xgboost进行多个超参数组合的遍历；在xgboost模型中，对max_depth,subsample,colsample_bytree和n_estimators参数进行遍历，自动选择最优参数组合，形成最优预测模型。7.根据权利要求1所述的基于显著性p值和xgboost的浮选回收率预测的方法，其特征在于：当步骤(4)中输入有效自变量组合是一项，且输出变量是浮选回收率为y时，输入的有效变量在(x1,x2,x3…
,x
j-1
,x
j
)里面选择一个变量，总共会有个xgboost模型；当步骤(4)中输入有效自变量组合为2项，且输出变量是浮选回收率为y时，输入变量在(x1,x2,x3…
,x
j-1
,x
j
)里面选择2个变量，总共会有个xgboost模型；当步骤(4)中输入有效自变量组合为3项，且输出变量是浮选回收率为y时，输入变量在(x1,x2,x3…
,x
j-1
,x
j
)里面选3个变量，总共会有个xgboost模型；当步骤(4)中输入变量组合为j-1项，且输出变量是浮选回收率为y时，输入变量在(x1,x2,x3…
,x
j-1
,x
j
)里面选j-1个变量，总共会有个xgboost模型。当步骤(4)中输入变量组合为j项，且输出变量是浮选回收率为y时，输入变量在(x1,x2,
x3…
,x
1-j
,x
j
)里面选j个变量，总共会有个xgboost模型。8.根据权利要求7所述的基于显著性p值和xgboost的浮选回收率预测的方法，其特征在于：当步骤(4)中输入有效自变量组合为n项，且输出变量是浮选回收率为y时，输入变量在(x1,x2,x3…
,x
j-1
,x
j
)里面选择n个变量，总共会有个xgboost模型；所述n为大于等于1的正整数。9.根据权利要求1所述的基于显著性p值和xgboost的浮选回收率预测的方法，其特征在于：得到的所有xgboost模型中，mape值最小的模型即为最佳的浮选回收率预测模型。

技术总结

本发明涉及一种基于显著性P值和XGBoost的浮选回收率预测方法，属于选矿技术领域。本发明首次提出通过显著性P值和XGBoost的融合，并用其来预测浮选回收率。本发明实现了对矿山数据的有效筛选并选取相关性最好的变量进行XGBoost建模，通过MAPE值自动选取最佳的XGBoost模型。本发明利用矿山数据，先进行显著性P值的运算和获取，通过显著性P值的判定，获得有效自变量，然后对有效自变量进行分组，并输入XGBoost中进行运算，最后以MAPE值最小化的判据；获得最佳浮选回收率预测模型；这大大的简化了运算量，而且显著提升了预测精度。同时也为矿山浮选工艺的优化指明了一条新的道路。路。路。