数投票产生的边界,它等价于一个13个节点的复杂决策树边界),也就是说用很多小的决策树经过组合以后能够达到大决策树的效果,从而实现对非平行与坐标轴的边界近似表示。 图3多个决策树投票后产生的边界 现在来考虑3个集成方法:adaboost、bagging和随机森林。bagging和随机森林都是独立构造各个基分类器,也就是子决策树。bagging通过处理输入的数据集来独立构造基分类器,而随机森林则是直接改变c4.5的决策。实质上这两种做法类似于贝叶斯投票,不同的假设在训练集的不同子区域上面的准确率是不一样的,因此在训练集的某个子区域上表现最好的假设起到更多的作用,从这个角度来说,这两种做法主要解决了数据问题,部分解决了计算问题,但是对表示问题并没有直接的影响。 相比之下,adaboost通过构造每一个新的决策树(子分类器)去消除前面决策树加权投票没有完全解决的残留错误。adaboost直接去优化这些加权的投票,因此,直接瞄准了表示问题。但是,这种直接优化的做法会增加过拟合的风险,因为集成后的假设空间通常大于原始算法的假设空间。 这样,我们就能理解在大数据机上随机森林为什么比bagging表现更好了。因为bootstrap抽样法产生了一个和原始训练集非常类似的更大的训练集,导致了训练出来的基本分类器(决策树)差异不明显。尽管很容易产生一些垃圾决策树,但随机森林产生的基分类器的差异性却十分明显。 3结语 集成学习是一种从弱分类器产生强分类器的有效且稳定的方法。本文简单总结了一些主要的集成方法并且分析了集成学习比单个分类器效果要好的3个主要原因。本文用一些实验证明了这些结论,并进行了说明[8],但是对adaboost和一些底层算法的相互作用[9]没有讨论。大多数与adaboost结合的算法都有全局性的特点,例如学习一个相对低维的决策边界。是否存在一些局部算法(例如径向基函数或者最近邻方法)能和adaboost结合,从而产生新的算法,值得进一步研究。 参考文献参考文献: \[1\]hansen l k,salamon p.neural network ensembles[j].pattern analysis and machineintelligence, ieee transactions on, 1990,12(10):9931001. [2]schapire r e. the strength of weak learnability[j]. machine learning, 1990, 5(2): 197227. [3]hyafile l , rivest r l. constructing optimal binary decision trees is npcompltet[j].information processing letters,1976,5(1):1517. [4]freundy,schapirere.a decisiontheoretic generalization of online learning and a application to boosting[z].tech.rep,at&t bell laboratories,murray hill,nj,1995. [5]dietterichtg,bakirig. solving multiclass learning problems via errorcorrecting output codes[j]. journal of artificial intelligence research,1995(2):263286. [6]kolenjf ,pollackj b. back propagation is sensitive to initial conditions[j].in advances in neural information processing systems, san francisco, ca.morgan kaufmann,1991(3): 860867. [7]chipman h, george e, mcculloch r. bayesian cart[r].technicalreport. chicago:department of statistics, university of chicago, 1996. [8]王清.集成学习中若干关键问题的研究[d]. 上海:复旦大学 ,2011. [9]方育柯.集成学习理论研究及其在个性化推荐中的应用[d].