kNN算法筆記
標簽(空格分隔): 機器學習
kNN是什么
kNN算法是k-NearestNeighbor算法
,也就是k鄰近算法
。是監督學習的一種。所謂監督學習就是有訓練數據,訓練數據有label標好(也就是分類分好的)。kNN的思路是,對于需要測試的數據,把它和訓練集中的每個數據都進行距離計算,距離最近的前k個結果中,所對應的label出現次數最多的,就是這個測試數據所屬的label(類別)。
kNN一般步驟
按照《machine learning in action》一書中的通用步驟走一遍:
- 計算已知類別數據集中的點與當前點之間的距離
- 按照距離遞增次序排序
- 選取與當前點距離最小的k個點
- 確定前k個點所在類別的出現頻率
- 返回前k個點出現頻率最高的類別作為當前點的預測分類
不過按偏向程序編寫的角度來說,是:
- 準備訓練數據集,包括向量數據A和對應的標簽(也就是分類)
- 將待測數據構造成和訓練集同樣數量的一個矩陣,也就是自重復,得到B
- 計算A和B中每一個向量之間的距離:每一維對應相減,然后求平方和,在開根號,得到距離序列D。
- 從距離序列D中選取排序后的前k個,得到序列E
- 逐一掃描序列E,把每個元素對應的label作為key,label出現的次數作為value,邊掃描邊生成這樣的(key,value)構成的字典F
- 將字典F按照value排序,排序后的第一個元素value最大,表示對應的key也就是label(類別)出現次數最多,作為測試數據的預測歸類。
kNN代碼編寫
假設有四個點P1(1,1.1),P2(1,1),P3(0,0),P4(0,0.1),分別屬于A、A類和B、B類。現在想測試Q(0,0)屬于哪個類別。畫出坐標圖,顯然是B類。使用kNN編寫程序計算,代碼如下:
#!/usr/bin/python
#coding:gbk
from numpy import *
import operator
def createDataSet():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','A','B','B']
return group, labels
def classify0(inX, dataSet, labels, k):
"""
@param inX: 用于分類的輸入向量
@param dataSet:訓練樣本集
@param labels:標簽向量 len(labels)==len(dataSet)
@param k:用于選擇最近鄰居的數目s
"""
dataSetSize = dataSet.shape[0] #矩陣的行數
diffMat = tile(inX, (dataSetSize, 1)) - dataSet
#tile(inX, (dataSetSize, 1)):構造一個矩陣,行數和dataSet相同,每行都是1個inX構成
#diffMat就是計算:構造出的矩陣與訓練集在每個維度上求差值("距離") ==> 差值矩陣
sqDiffMat = diffMat ** 2 #矩陣中每個元素都求平方
sqDistances = sqDiffMat.sum(axis=1) #計算每一行的sigma axis=0:每一列 axis=1:每一行
distances = sqDistances ** 0.5
sortedDistIndicies = distances.argsort()
#np.argsort()得到的是排序后的數據原來位置的下標。
#而distances本身并沒有被改變掉
classCount={}
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
#D.get(k[,d]) -> D[k] if k in D, else d. d defaults to None.
#即:classCount.get(voteIlabel,0)在存在voteIlabel這個key的時候,得到classCount[voteIlabel)
#當不存在這個key的時候,得到0。 也就是一個累加器
sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
#itermitems():字典類型的數據所擁有的迭代器
#operator.itemgetter(n):是定義了一個函數,通過該函數作用到對象上才能獲取值。
#這里itemgetter(1)取得第二列的值,也就是classCount這個字典的value。按照這個value來排序。
#reverse=True:列表按照降序排列。
return sortedClassCount[0][0]
if __name__ == '__main__':
dataSet, labels = createDataSet()
inX=[0,0]
k=3
result=classify0(inX, dataSet, labels, k)
print result
簡單實踐:改進約會網站的配對效果
還是書上的例子,不過也算是簡單的實際應用了:每一個被邀請約會的人有四個參數(a,b,c,label),前三個是三個維度的數據,最后一個參數是(a,b,c)組合得到的類別。現在有若干(a,b,c,label)數據,需要用kNN算法,對于給定的(a',b',c'),計算label'。
數據分布
(a,b,c)數據分布如圖所示,每一種顏色代表一個類別。
數據歸一化
比如(a,b,c,label)序列中,a、b、c三者權重相同,而b這一維度數據的變化范圍遠遠大于a、c各自的變化范圍,此時算出的向量距離中b的權重過大。一個解決辦法是把a、b、c三個維度的數據都映射到同一個變化范圍,比如[0,1]
。
def autoNorm(dataSet):
"""
歸一化:將一系列的數值轉化為[0,1]之間的數據
"""
minVals = dataSet.min(0)
maxVals = dataSet.max(0)
#min(0):將dataSet的列向量逐一求min,再構造為list。也就是:每一列分別求最小值,最后構成一個list
#min(1):對行向量進行處理
#類似于scheme中的(flatmap proc seq) = (flatmap min dataSet),也就是map+accumulate的過程
ranges = maxVals - minVals
normDataSet = zeros((shape(dataSet)))
m = dataSet.shape[0] #數據行數,也就是數據條目數
normDataSet = dataSet - tile(minVals, (m, 1))
normDataSet = normDataSet / tile(ranges, (m, 1))
return normDataSet, ranges, minVals
小插曲
用autoNorm
函數計算的到的normDataSet正確運行結果如下(和書上不一樣,感覺書上結果是錯的):
[[ 0.44832535 0.39805139 0.56233353]
[ 0.15873259 0.34195467 0.98724416]
[ 0.28542943 0.06892523 0.47449629]
...,
[ 0.29115949 0.50910294 0.51079493]
[ 0.52711097 0.43665451 0.4290048 ]
[ 0.47940793 0.3768091 0.78571804]]
分類結果
好了,終于可以調用各函數,實現最終的計算了。這里采取前10%的數據作為測試數據,后90%的數據作為訓練數據。代碼如下:
def datingClassTest():
"""
分類器針對約會網站的測試代碼
"""
hoRatio = 0.10
datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
normMat, ranges, minVals = autoNorm(datingDataMat)
m = normMat.shape[0]
numTestVecs = int(m*hoRatio)
errorCount = 0.0
for i in range(numTestVecs):
classifierResult = classify0(normMat[i,:], normMat[numTestVecs:m,:], datingLabels[numTestVecs:m], 3)
print "分類器計算出的分類為: %d, 實際分類為 is: %d"%(classifierResult, datingLabels[i])
if classifierResult!=datingLabels[i]:
errorCount += 1.0
print "總體錯誤率為: %f"%(errorCount/float(numTestVecs))
if __name__ == '__main__':
datingClassTest()
運行結果:
分類器計算出的分類為: 2, 實際分類為 is: 2
分類器計算出的分類為: 1, 實際分類為 is: 1
分類器計算出的分類為: 3, 實際分類為 is: 3
分類器計算出的分類為: 3, 實際分類為 is: 3
分類器計算出的分類為: 2, 實際分類為 is: 2
分類器計算出的分類為: 1, 實際分類為 is: 1
分類器計算出的分類為: 3, 實際分類為 is: 1
總體錯誤率為: 0.050000
總結
通過kNN算法的學習知道,算法實際步驟如下:
- 準備數據,包括數據本身和label(類別)標記
- 數據整形:讀入數據并調整為向量格式
- 切分數據塊。比如10%為測試數據,90%為訓練數據。
- 數據權重調整。如果每個維度權重相同,則可以使用歸一化方法
- 計算測試數據和訓練數據之間的距離
- 選取距離最小的k個結果,遍歷這些結果,統計對應的label頻數
- 將上一步得到的結果按照頻數排序,排序后第一個結果的label就是計算出的label
- 每一個測試數據在計算時,可同時統計錯誤率
另一個實踐:手寫識別過程
這里檢測各位數字,即0~9。手寫識別過程,經過圖像預處理,得到32*32的矩陣表示的數字,其中數字形狀區域用1
表示,非數字的空白區域用0
表示。訓練數據和測試數據分屬兩個文件夾下,每個文件都是只有一個數字的txt文件,文件命名有規律:文件對應的數字+不重復的序號。
首先是將32*32的二維數組轉換為一維的數組,也就是1024維的一個行向量。同時從文件名中取出當前向量對應的類別。這樣就完成了訓練集的操作。
對于測試集,用同樣的方式先構造1024維的向量,然后每一個都通過kNN的分類器函數classify0()來計算其label(分類),并統計誤差。
def img2vector(filename):
vector=zeros(1024)
fr = open(filename)
for i in xrange(32):
lineStr = fr.readline()
for j in xrange(32):
vector[32*i+j] = int(lineStr[j])
return vector
def simple_img2vector_test():
testVector = img2vector('testDigits/0_13.txt')
print testVector[0:31]
def handwritingClassTest():
hwLabels=[]
trainingFileList=listdir('trainingDigits')
m=len(trainingFileList)
trainingMat=zeros((m, 1024))
for i in xrange(m):
fileNameStr=trainingFileList[i]
fileStr=fileNameStr.split('.')[0]
classNumStr = int(fileStr.split('_')[0])
hwLabels.append(classNumStr)
trainingMat[i,:]=img2vector('trainingDigits/%s'%fileNameStr)
testFileList=listdir('testDigits')
errorCount=0.0
mTest=len(testFileList)
for i in xrange(mTest):
fileNameStr=testFileList[i]
fileStr=fileNameStr.split('.')[0]
classNumStr=int(fileStr.split('_')[0])
vectorUnderTest=img2vector('testDigits/%s'%fileNameStr)
classifierResult=classify0(vectorUnderTest, trainingMat, hwLabels, 3)
print "分類器計算出的類別為: %d, 實際類別為: %d" % (classifierResult, classNumStr)
if classifierResult!=classNumStr:
errorCount += 1.0
print "\n計算錯誤的總次數為: %d"%errorCount
print "\n總錯誤率為: %f"%(errorCount/float(mTest))
if __name__ == '__main__':
handwritingClassTest()
運行結果:
分類器計算出的類別為: 9, 實際類別為: 9
分類器計算出的類別為: 9, 實際類別為: 9
分類器計算出的類別為: 9, 實際類別為: 9
分類器計算出的類別為: 9, 實際類別為: 9
分類器計算出的類別為: 9, 實際類別為: 9
分類器計算出的類別為: 9, 實際類別為: 9
分類器計算出的類別為: 9, 實際類別為: 9
分類器計算出的類別為: 9, 實際類別為: 9
計算錯誤的總次數為: 11
總錯誤率為: 0.011628
文章列表