樸素貝葉斯 - universe42－IT工程師數位筆記本

文章出處

樸素貝葉斯(Naive Bayes)是貝葉斯分類器(Bayesian classifier)的擴展，是貝葉斯決策論(Bayesian decision theory)的一部分。貝葉斯決策論的核心思想是選擇有最高概率的決策(分類)。舉個例子，有一天你走在路上聽到一群狼嚎，你知道那肯定不是真的老虎，而是電視喇叭發出的聲音；要是你跟朋友去某個原始森林里野營，哪怕聽到一聲狼叫估計也會膽戰心驚，因為幾乎可以斷定附近有狼。

樸素貝葉斯可以用于任意分類場景中，被廣泛用于文檔分類，如垃圾郵件過濾，新聞分類等。樸素貝葉斯方法被稱作“樸素”是因為它的假設：

a. 各個特征之間相互獨立

b. 各個特征的重要性相同

第一個假設認為每個特征都是不相關的，即一個特征的值不會影響另一個特征的取值。而在實際中，這顯然是很難滿足的假設。對于郵件歸類問題，假如我們使用單詞作為特征，那么該假設認為每個單詞的出現是無關的。然而現實中，某些單詞卻像親兄弟一樣經常成對出現。比如如果一個郵件中出現了“肥胖”這個詞，那么我們可以猜到“吃”、“垃圾食品”、“健康”、“減肥”等詞匯極有可能出現，因為它們與“肥胖”有著極強的關聯。

同樣對于郵件分類問題，第二個假設則認為每個單詞對于郵件的歸類的重要性相同。然而大多數情況下，我們只要掃一眼郵件，如果看到“特惠”或者“清倉”幾乎可以確定是商家推銷的郵件，無需再深入去看郵件內容。對于新聞內容的分類，如果出現“本拉登”或者“911”，你也一定立馬會知道這篇新聞是關于恐怖主義的。因此實際中選取的特征重要性很難相同。

由于樸素貝葉斯做出的兩個假設在實際應用中看起來很“naive”，因此這種方法被稱為"Naive Bayes"。

雖然樸素貝葉斯方法的假設有點“too young too simple”，但也正是因為它這天真的假設大大簡化了計算過程，并在實際應用中取得很好的效果。

conditional independence

laplace校準

prepare: bag-of-words document model

例子1 垃圾郵件過濾

例子2

文章列表