简介
集成学习(Ensemble Learning)是通过聚合多个分类器的预测结果来提高分类的准确率。比如,在集成学习中,会生成多个分类树模型,从中选取表现较好的那些树模型,在通过投票等筛选方式决定最终输出的分类器。在聚合算法中,以Bagging,Boosting与Random Forest(随机森林)最为典型。这三个算法,因为能够显著改善决策树的缺陷而被广泛应用。
一句话解释版本:
Bagging是决策树的改进版本,通过拟合很多决策树来实现降低Variance。
Random Forrest是Bagging的改进版本,通过限制节点可选特征范围优化Bagging。
Boosting是Bagging的改进版本,通过吸取之前树的经验建立后续树优化Bagging。
数据分析与挖掘体系位置
集成学习是数据建模中的一种,虽然集成学习大多是决策树的优化,但是它建立的模型数量庞大,因此我并没有将其归类于有监督学习中,而是另外建立一个分支。
Bagging
Bagging的目的决策树的缺点在于High Variance,也就是说,我们将样本一分为二,用两个子样本分别拟合模型,得到的结果很可能不一样。而Bagging,又称Bootstrap Aggregation,就是为了降低分类器的Variance。
这就是说,应用了Bagging后,不同样本子集产出的分类器结果将会更相似。
Bagging的基本理念Bagging的基本理念是:求平均值会降低Variance。
想要降低模型的Variance,并提高准确率的方法就是,从样本总体中抽取很多个训练集(Training Set),对每个训练集分别拟合模型。将每个模型的结果求平均(Average)。
因此,Bagging的方法就是:
通过Bootstrap的方法,从一个T