文章出處

樸素貝葉斯(Naive Bayes)是貝葉斯分類器(Bayesian classifier)的擴展,是貝葉斯決策論(Bayesian decision theory)的一部分。貝葉斯決策論的核心思想是選擇有最高概率的決策(分類)。舉個例子,有一天你走在路上聽到一群狼嚎,你知道那肯定不是真的老虎,而是電視喇叭發出的聲音;要是你跟朋友去某個原始森林里野營,哪怕聽到一聲狼叫估計也會膽戰心驚,因為幾乎可以斷定附近有狼。

樸素貝葉斯可以用于任意分類場景中,被廣泛用于文檔分類,如垃圾郵件過濾,新聞分類等。樸素貝葉斯方法被稱作“樸素”是因為它的假設:

a. 各個特征之間相互獨立

b. 各個特征的重要性相同

第一個假設認為每個特征都是不相關的,即一個特征的值不會影響另一個特征的取值。而在實際中,這顯然是很難滿足的假設。對于郵件歸類問題,假如我們使用單詞作為特征,那么該假設認為每個單詞的出現是無關的。然而現實中,某些單詞卻像親兄弟一樣經常成對出現。比如如果一個郵件中出現了“肥胖”這個詞,那么我們可以猜到“吃”、“垃圾食品”、“健康”、“減肥”等詞匯極有可能出現,因為它們與“肥胖”有著極強的關聯。

同樣對于郵件分類問題,第二個假設則認為每個單詞對于郵件的歸類的重要性相同。然而大多數情況下,我們只要掃一眼郵件,如果看到“特惠”或者“清倉”幾乎可以確定是商家推銷的郵件,無需再深入去看郵件內容。對于新聞內容的分類,如果出現“本拉登”或者“911”,你也一定立馬會知道這篇新聞是關于恐怖主義的。因此實際中選取的特征重要性很難相同。

由于樸素貝葉斯做出的兩個假設在實際應用中看起來很“naive”,因此這種方法被稱為"Naive Bayes"。

雖然樸素貝葉斯方法的假設有點“too young too simple”,但也正是因為它這天真的假設大大簡化了計算過程,并在實際應用中取得很好的效果。

conditional independence

laplace校準

prepare: bag-of-words document model

 

例子1 垃圾郵件過濾

例子2 


文章列表


不含病毒。www.avast.com
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()