bootstrps、bagging与boosting bagging和boosting

bootstrps bagging boosting这几个概念经常用到,现仔细学习了一下:他们都属于集成学习方法,(如:Bagging,Boosting,Stacking),将训练的学习器集成在一起,原理来源于PAC学习模型(ProbablyApproximately CorrectK)。Kearns和Valiant指出,在PAC学习模型中,若存在一
个多项式级的学习算法来识别一组概念,并且识别正确率很高,那么这组概念是强可学习的;而如果学习算法识别一组概念的正确率仅比随机猜测略好,那么这组概念是弱可学习的。他们提出了弱学习算法与强学习算法的等价性问题,即是否可以将弱学习算法提升成强学习算法。如果两者等价,那么在学习概念时,只要找到一个比随机猜测略好的弱学习算法,就可以将其提升为强学习算法,而不必直接去找通常情况下很难获得的强学习算法。bootstraps:名字来自成语“pull up by your ownbootstraps”,意思是依靠你自己的资源,它是一种有放回的抽样方法,学习中还发现有种叫jackknife的方法,它是每一次移除一个样本。bagging:bootstrapaggregating的缩写。让该学习算法训练多轮,每轮的训练集由从初始的训练集中随机取出的n个训练倒组成,初始训练例在某轮训练集中可以出现多次或根本不出现训练之后可得到一个预测函数序列h.,⋯⋯h 最终的预测函数H对分类问题采用投票方式,对回归问题采用简单平均方法对新示例进行判别。–(训练R个分类器fi,分类器之间其他相同就是参数不同。其中fi是通过从训练集合中(N篇文档)随机取(取后放回)N次文档构成的训练集合训练得到的。–对于新文档d,用这R个分类器去分类,得到的最多的那个类别作为d的最终类别.)boosting:其中主要的是AdaBoost(AdaptiveBoosting)。初始化时对每一个训练例赋相等的权重1/n,然后用该学算法对训练集训练t轮,每次训练后,对训练失败的训练例赋以较大的权重,也就是让学习算法在后续的学习中集中对比较难的训练铡进行学习,从而得到一个预测函数序列h一⋯h其中h.也有一定的权重,预测效果好的预测函数权重较大,反之较小。最终的预测函数H对分类问题采用有权重的投票方式,对回归问题采用加权平均的方法对新示例进行判别。(类似Bagging方法,但是训练是串行进行的,第k个分类器训练时关注对前k-1分类器中错分的文档,即不是随机取,而是加大取这些文档的概率).Bagging与Boosting的区别:在于Bagging的训练集的选择是随机的,各轮训练集之间相互独立,而Boostlng的训练集的选择是独立的,各轮训练集的选择与前面各轮的学习结果有关;Bagging的各个预测函数没有权重,而Boosting是有权重的;Bagging的各个预测函数可以并行生成,而Boosting的各个预测函数只能顺序生成。对于象神经网络这样极为耗时的学习方法。Bagging可通过并行训练节省大量时间开销。   bagging和boosting都可以有效地提高分类的准确性。在大多数数据集中,boosting的准确性比bagging高。在有些数据集中,boosting会引起退化。---Overfit

文本分类中使用的投票方法(Voting,也叫组合分类器)就是一种典型的集成机器学习方法。它通过组合多个弱分类器来得到一个强分类器,包括Bagging和Boosting两种方式,二者的主要区别是取样方式不同。Bagging采用均匀取样,而Boosting根据错误率来取样,因此Boosting的分类精度要优于Bagging。投票分类方法虽然分类精度较高,但训练时间较长。Boosting思想的一种改进型AdaBoost方法在邮件过滤、文本分类方面都有很好的性能。

  

爱华网本文地址 » http://www.413yy.cn/a/25101016/327248.html

更多阅读

WTO、ECFA、CEPA三者是什么和对比分析 cepa补充协议十

WTO:世贸组织是一个独立于联合国的永久性国际组织。1995年1月1日正式开始运作,负责管理世界经济和贸易秩序,总部设在瑞士日内瓦莱蒙湖畔。世贸组织的宗旨是:提高生活水平,保证充分就业和大幅度、稳步提高实际收入和有效需求;扩大货物和

功勋人物、标签与酒 香港15位功勋人物

功勋人物、标签与酒作者:空中飞   中国杂文网报道:他可以用半年的时间把原来民居密集的地方变成八横八纵的步行街区,可以在三天以内办妥一个庞大的投资项目,甚至可以在两周之内将一个原本垃圾成堆的县城变得干净整洁。他实施以修路促

中国“艺术电影”:命名、由来、现状与趋势

中国“艺术电影”:命名、由来、现状与趋势陈旭光【内容提要】新时期以来,“艺术电影”的流脉从以第四代导演为主体的艺术潮流,到以第五代导演为主体的新时期电影艺术的高潮和高潮后的萎缩与分化以及“后五代”导演对艺术与商业的融合

历史研究中的分类、解释与比较 会计科目分类和解释

历史研究中的分类、解释与比较刘良华我只认三种研究方法:调查研究、实验研究和历史研究。我建议教育硕士或中小学老师只做实验研究或调查研究,我建议全日志的教育学原理的研究生只做历史研究。历史研究的总体特征是对历史事件或历

声明:《bootstrps、bagging与boosting bagging和boosting》为网友教主圣安分享!如侵犯到您的合法权益请联系我们删除