樸素貝葉斯(Naive Bayes)是貝葉斯分類器(Bayesian classifier)的擴展,是貝葉斯決策論(Bayesian decision theory)的一部分。貝葉斯決策論的核心思想是選擇有最高概率的決策(分類)。舉個例子,有一天你走在路上聽到一群狼嚎,你知道那肯定不是真的老虎,而是電視喇叭發出的聲音;要是你跟朋友去某個原始森林里野營,哪怕聽到一聲狼叫估計也會膽戰心驚,因為幾乎可以斷定附近有狼。
樸素貝葉斯可以用于任意分類場景中,被廣泛用于文檔分類,如垃圾郵件過濾,新聞分類等。樸素貝葉斯方法被稱作“樸素”是因為它的假設:
a. 各個特征之間相互獨立
b. 各個特征的重要性相同
第一個假設認為每個特征都是不相關的,即一個特征的值不會影響另一個特征的取值。而在實際中,這顯然是很難滿足的假設。對于郵件歸類問題,假如我們使用單詞作為特征,那么該假設認為每個單詞的出現是無關的。然而現實中,某些單詞卻像親兄弟一樣經常成對出現。比如如果一個郵件中出現了“肥胖”這個詞,那么我們可以猜到“吃”、“垃圾食品”、“健康”、“減肥”等詞匯極有可能出現,因為它們與“肥胖”有著極強的關聯。
同樣對于郵件分類問題,第二個假設則認為每個單詞對于郵件的歸類的重要性相同。然而大多數情況下,我們只要掃一眼郵件,如果看到“特惠”或者“清倉”幾乎可以確定是商家推銷的郵件,無需再深入去看郵件內容。對于新聞內容的分類,如果出現“本拉登”或者“911”,你也一定立馬會知道這篇新聞是關于恐怖主義的。因此實際中選取的特征重要性很難相同。
由于樸素貝葉斯做出的兩個假設在實際應用中看起來很“naive”,因此這種方法被稱為"Naive Bayes"。
雖然樸素貝葉斯方法的假設有點“too young too simple”,但也正是因為它這天真的假設大大簡化了計算過程,并在實際應用中取得很好的效果。
conditional independence
laplace校準
prepare: bag-of-words document model
例子1 垃圾郵件過濾
例子2
文章列表