客流监测系统
机器学习随机森林算法的应用现状投饵机作者:杭琦 杨敬辉钢架桥
来源:《电子技术与软件工程》2018年第24期等离子割
摘要
随机森林(RF)是机器学习算法中的一种组合分类器,也是集成学习的代表性算法之一。它通过bagging算法集成多个决策树并以投票的形式输出结果,在学术界和工业界均取得了很好的评价。本文将具体介绍随机森林算法的构建过程,总结随机森林算法在性能改进、性能指标方面的研究,对目前随机森林已经有的理论和应用研究做一个系统的总结和整理,以利于后续的算法优化研究。 【关键词】机器学习 集成学习 随机森林
abs耐高温叉车轮辋 机器学习算法主要解决的是分类和聚类的问题。分类问题是根据用户的分类数据得到预测的分类结果。根据分类器的个数,分类器又分为单分类器和多分类器。例如决策树、贝叶斯都是传统单分类算法。这些传统的机器学习算法在一定程度上都促进了分类学习的发展,但由于单分类器有其自身的限制,容易产生过拟合等现象。故学者们提出集成多个分类器形成组合分类器,把一个学习问题分解到各个子学习器内,让其一起学习。多分类器的分类思想起源子集成学习,Boosting和Bagging是最早将集成学习思想应用到机器学习分类算法里中两种算法。随着集成学习的发展,TinKam Ho在1995年提出了随机决策森林
的思想,1998年,他又提出了新的随机子空间的集成方法,Breiman根據随机子空间的思想在2001提出了随机森林算法,从理论和实践两方面做了系统的阐述,自此随机森林算法成为机器学习领域中的一个具有代表性的集成学习的方法。
本篇文章第一节针对随机森林算法构建过程进行简单介绍;第二节介绍随机森林在性能改进方面的研究;第三节针对随机森林的性能指标进行研究总结;最后总结全文。
1随机森林算法的构建过程
随机森林算法是一种集成分类模型,它的构建过程主要由三个方面构成,训练集的生成、决策树的构建和算法的产生。要构建随机森林首先要生成一个规模大小为N的随机森林,就需要有N颗树,因此需要N组训练集。故首先我们需要从原始数据中通过抽样产生训练集。通过Bagging算法从原始数据集中抽取N个样本。每个样本都会生产一个决策树,且生成的决策树不需要做剪枝处理,从而建立起N棵决策树形成森林。随机森林生成过程中涉及到如下三个评估过程: