计算机科学
主办单位:国家科学技术部
国际刊号:1002-137X
国内刊号:50-1075/TP
学术数据库优秀期刊 《中文科技期刊数据库》来源期刊
       首 页   |   期刊介绍   |   新闻公告   |   征稿要求   |   期刊订阅   |   留言板   |   联系我们   
  本站业务
  在线期刊
      最新录用
      期刊简明目录
      本刊论文精选
      过刊浏览
      论文下载排行
      论文点击排行
      
 

访问统计

访问总数:42221 人次
 
    本刊论文
贝叶斯分类器在机器学习中的研究

  摘要:贝叶斯分类器作为机器学习中的一种分类算法,在有些方面有着其优越的一面,在机器学习中有着广泛的应用,本文通过对机器学习中贝叶斯分类器的解析,指出了贝叶斯分类器在机器学习中的适用方面和不足之处。使其能更加清楚认识了解贝叶斯算法,并能在适合的方面使用贝叶斯算法。


  关键词:机器学习 贝叶斯算法适用


  1. 引言


  机器学习是计算机问世以来,兴起的一门新兴学科。所谓机器学习是指研究如何使用计算机来模拟人类学习活动的一门学科,研究计算机获得新知识和新技能,识别现有知识,不断改善性能,实现自我完善的方法,从而使计算机能更大性能的为人类服务。


  机器学习所适用的范围广阔,在医疗、军事、教育等各个领域都有着广泛的应用,并发挥了积极的作用。而分类是机器学习中的基本问题之一,目前针对不同的分类技术,分类方法有很多,如决策树分类、支持向量机分类、神经网络分类等。贝叶斯分类器作为机器学习分类中的一种,近年来在许多领域也受到了很大的关注,本文对贝叶斯分类器进行总结分析和比较,提出一些针对不同应用对象挑选贝叶斯分类器的方法。


  2. 贝叶斯公式与贝叶斯分类器:


  2.1贝叶斯公式:


  在概率论方面的贝叶斯公式是在乘法公式和全概率公式的基础上推导出来的,它是指设■是样本空间Ω的一个分割,即■互不相容,且 ,如果■,■, ■,则


  ,■


  这就是贝叶斯公式,■称为后验概率,■为先验概率,一般是已知先验概率来求后验概率,贝叶斯定理提供了“预测”的实用模型,即已知某事实,预测另一个事实发生的可能性大小。


  2.2 机器学习中的贝叶斯法则:


  在机器学习中,在给定训练数据D时,确定假设空间H中的最佳假设,我们用■来代表在没训练数据前假设■拥有的初始概率。■为■的先验概率,用■代表将要观察训练数据D的先验概率,以■代表假设■成立的情况下观察到数据D的概率,以■为给定训练数据D时■成立的概率,■称为■的后验概率,机器学习中的贝叶斯公式为:


  学习器考虑候选假设集合H并在其中寻找给定数据D时可能性最大的假设,称为MAP假设,记为■,则


  ■


  2.3 贝叶斯分类器


  贝叶斯分类器是用于分类的贝叶斯网络。该网络中应包含类结点C ,其中C的取值来自于类集合( c1, c2,…, cm) ,还包含一组结点X = ( X1, X2,…, Xn) ,表示用于分类的特征。对于贝叶斯网络分类器,若某一待分类的样本D ,其分类特征值为


  x = ( x1, x2,…, xn) ,


  则样本D属于类别ci的概率


  P ( C = ci|X1= x1, X2= x2,…, Xn= xn) , ( i = 1 , 2 ,…, m )


  应满足下式:


  P ( C = ci|X = x ) = Max{ P ( C = c1|X = x ) , P ( C = c2|X = x ) ,…, P ( C = cm|X = x ) }


  而由贝叶斯公式


  其中, P ( C = ci) 可由经验得到,而P ( X = x |C = ci) 和P ( X = x )的计算则较困难。应用贝叶斯网络分类器进行分类主要分成两阶段:第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器,包括结构学习和CPT学习;第二阶段是贝叶斯网络分类器的推理,即计算类结点的条件概率,对分类数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度,甚至可以是NP完全问题,因而在实际应用中,往往需要对贝叶斯网络分类器进行简化。


  本节小结:本节讲解了从数学中的贝叶斯公式及在机器学习中贝叶斯法则在机器学习中是如何应用的,使读者清楚了解了贝叶斯的应用方面是比较广泛的,贝叶斯不论是在数学领域,还是在机器学习中都有着重要地位,因此掌握贝叶斯法则是很有必要的。


  3. 贝叶斯最优分类器与朴素贝叶斯分类器


  3.1 贝叶斯最优分类器


  “给定训练数据,对新实例的最可能分类是什么?”新实例的最可能分类可通过合并所有假设的预测得到,用后验概率来加权。如果新样例的可能分类可取某集合V中的任一值■,那么概率■表示新实例的正确分类为■的概率,其值为:


  新实例的最优分类为使■最大的值■,则


  按上式分类新实例的系统被称为贝叶斯最优分类器。使用相同的假设空间和相同的先验概率,使用贝叶斯最优分类器是最好的,它能使新实例被正确分类的可能性达到最大。


  3.2 朴素贝叶斯分类器


  朴素贝叶斯分类器是贝叶斯学习方法中实用性很高的一种,朴素贝叶斯对于数据的分类过程如下:


  对每个实例x可由属性值的合取描述,而目标函数f(x)从某有限集合V中取值。学习器被提供一系列关于目标函数的训练样例以及新实例■,然后要求预测新实例的目标值,得到最可能的目标值■


  使用贝叶斯公式,可将此表达式重写为


  朴素贝叶斯分类器基于一个简单的假定:在给定目标值时属性值之间相互条件独立。因此联合的的概率等于每个单独属性的概率的乘积


  将其带人上式得


  其中■表示朴素贝叶斯分类器输出的目标值。


  朴素贝叶斯分类器模型中:


  ■为给定一个实例,得到的最可能的目标值。


  ■属于集合V。


  a1…an 是这个实例里面的属性。


  ■是后面计算得出的概率最大的一个,所以用max来表示。


  本节小结:本节着重讲解了贝叶斯分类器在机器学习领域的应用,从而使读者明白贝叶斯分类器的原理,理解贝叶斯分类器在机器学习中是如何进行分类,来实现在这个领域类的运用。   4. 机器学习中贝叶斯分类器与决策树分类比较的优缺点分析


  4.1 贝叶斯分类与决策树分类的优缺点对比


  在机器学习的分类模型中,应用较为广泛的为决策树模型和贝叶斯模型,决策树模型利用构造树来解决分类问题。决策树模型利用训练数据来构造一棵决策树,将树建立起来,就可以为未知样本进行一个分类,决策树模型便于使用,且能高效解决问题。决策树的另一优点为可以对有许多属性的数据集构造决策树,但决策树也有其不完美的一面,对处理缺失数据时较困难,对拟合问题中往往会忽略数据集中属性之间的相关性。


  与决策树相比,贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及较为稳定的分类概率,同时,朴素贝叶斯模型所需估计的参数不多,对缺失数据不太敏感,算法也较为简单,朴素贝叶斯模型与其他的分类方法相比具有最小的误差率。


  但贝叶斯模型也有其缺失的一面,在应用朴素贝叶斯分类器时,其主要设计的两个问题是,首先要决定怎样讲任意文档表示为属性值的形式,其次是要决定如何估计朴素贝叶斯分类器所需的概率。对于朴素贝叶斯模型,由于假设属性之间相互独立,但这个假设在实际应用中往往是不成立的,这会给朴素贝叶斯模型的正确分类带来一定的影响,在属性个数比较多或属性之间相关性较大时,选择朴素贝叶斯模型的分类效率是很低的。


  还有就是贝叶斯分类器是在假设知道先验概率的基础上,预测出事件的后验概率,但在实际的应用中,要知道事件是先验概率也是很困难的,对有许多的问题其先验概率所采取的都是近似值,这在有些方面也给贝叶斯分类器计算出的后验概率带来一定的影响。因此贝叶斯分类器也不是万能的,必须根据实际情况,看所选择的问题是否使用于贝叶斯分类器。


  4.2 贝叶斯分类器的应用


  对于一些规模性较小的数据集而言,采用贝叶斯分类器的分类效果较好,并且当数据集之间的属性关联性较弱时,贝叶斯分类器的分类效果优于其他的分类器,采用贝叶斯分类器是不二的选择,对于规模较大、属性间关联性较强的数据集而言,则要根据情况而定。


  5. 小结


  机器学习的分类方法很多,本文着重结束了贝叶斯分类器在机器学习中的应用。并对贝叶斯分类器的分类效果进行了分析和比较,指出贝叶斯分类器的优点,同时也对贝叶斯分类器的不足之处进行了分析。通过分析,指出了可以根据数据集之间的规模和属性间的关联性来选择是否适合贝叶斯分类器。


  由于机器学习的领域宽广,所以对其选择的分类方法也很多,对于不同的分类方法在某些方面都有其独特的一面,贝叶斯分类器作为机器学习中的一种较为重要的分类,在许多的方面都可能应用到,因此对于机器学习而言掌握贝叶斯分类器是很有必要的,当然贝叶斯分类器不是万能的,在有些方面也不一定会适用。但到现在为止,还没有那一种方法是万能的,一成不变的。所以对于不同的情况,必须具体问题具体分析,根据不同的问题选择出最优的分类方法,解决问题才是最重要的。


  参考文献:


  [1]Tom M.Mitchell.机器学习[M].机械工业出版社,2003.


  [2]方玮玮。机器学习方法浅析[J].


  [3]周颜军,王双成,王 辉。基于贝叶斯网络的分类器研究[J ] .东北师范大学学报:自然科学版, 2003 ,35 (2) :21-27.


  [4]王双成,张邦佐,王 辉,等。基于贝叶斯网络理论的TAN分类器无向依赖扩展[J ] .小型微型计算机系统, 2005 ,26 (1) :42-45.


  [5]杨帆,张彩丽。基于粗集的朴素贝叶斯分类算法及应用[J].计算机工程与应用,2007,43,(29):189-191.


特别说明:本站仅协助已授权的杂志社进行在线杂志订阅,非《计算机科学》杂志官网,直投的朋友请联系杂志社。
版权所有 © 2009-2024《计算机科学》编辑部  (权威发表网)   苏ICP备20026650号-8