一、模式識別(pattern recognition)
人類在識別和分辨事物時,往往是在先驗知識和以往對此類事物的多個具體實例觀察基礎上產生的整體性質和特征的認識。
其實,每一種外界事物都可以看作是一種模式,人們對外界事物的識別,很大部分是把事物進行分類來完成的。
中文中:模式==類
簡單來說就是一種規律,識別主是對事物對象進行分門別類,模式識別可以看作對模式的區分和認識,是事物樣本到類別的映射;
英文中:pattern則表示兩層意思
一層代表事物的模板或原形,第二層則是表征事物特點的特征或性狀組合。
在模式識別學科中,模式可以看做是對象的組成成分或影響因素間存在的規律性關系,或者是因素間存在的確定性或隨機性規律的對象、過程或事件的集合。
因此,也有人把模式成為模式類,模式識別也被稱作為模式分類(Pattern Classification)。
專業術語:
- 樣本(sample),一個個體對象,注意與統計學中的不同,類似于統計學中的實例(instance);
- 樣本集(sample set):若干樣本的集合,統計學中的樣本就是指樣本集;
- 類或類別(class):具有相同模式的樣本集,該樣本集是全體樣本的子集;
習慣性地,我們用w1,w2等來表示類別,兩類問題中也會用{0,1}或{-1,1}; - 特征(feature):也稱為屬性,通常指樣本的某些可以用數值去量化的特征,如果有多個特征,則可以組合成特征向量(feature vector)。樣本的特征構成了樣本特征空間,空間的維數就是特征的個數,每一個樣本就是特征空間中的一個點。
- 已知樣本(known sample):已經事先知道類別的樣本;
- 未知樣本(unknown sample):類別標簽未知但特征已知的樣本;
二、模式識別類型
1.監督模式識別
特點:要劃分的類別是已知的,并且能夠獲得一定數量的類別已知的訓練樣本。
這種情況下的機器學習的過程稱為監督學習(有導師學習)。
2.非監督模式識別
特點:事先并不知道要劃分的類別有哪些,甚至可能連要劃分類別的數目也不知道,并且沒有任何已知樣本可以用來訓練。
這種情況下要根據提取到的樣本特征將樣本聚成幾個類,屬于同一類的樣本從某個角度上看具有一定的相似性,而不同類之間的樣本差異則較大。這種機器學習的過程稱為非監督學習(無導師學習),也成為聚類。
需要注意的是,在很多非監督模式識別中,聚類的結果不是唯一的,因為“相似”是從某個角度看上去的相似,這里的角度就是前面提到的特征。根據樣本特征向量中的不同特征去聚類,會得到不同的結果。
舉個例子:假設提取到的4個樣本y1,y2,y3,y4的特征向量分別為
x1=(red,rounded,hollow)
x2=(red,rectangular,hollow)
x3=(blue,rounded,solid)
x4=(blue,rectangular,hollow)
若按特征向量的第一個特征(顏色)去聚類時,y1,y2聚為一類,y3,y4聚為一類;若按第二個特征(形狀)去聚類時,y1,y3聚為一類,y2,y4聚為一類;若按第三個特征(空心/實心)去聚類時,y1,y2,y4聚為一類,y3自成一類。
這很好的解釋了聚類結果的非唯一性,這也是非監督模式識別與監督模式識別的一個重要差別。
監督學習 | 非監督學習 |
有導師 | 無導師 |
要劃分的類別已知 | 事先不知要劃分類別 |
訓練中可知模型決策結果 | 不知是否有錯 |
神經網絡、決策樹 | k-均值聚類法 |
3. 加強學習
不提供設計種類,基于導師提供試驗反饋(如決策是否正確)
三、模式識別系統
一個模式識別系統的典型構成包括:預處理,特征選擇與提取,分類或聚類,后處理四個主要部分。
例子:
假設有兩種魚:鱸魚、鮭魚
問題:在傳送帶上分類
步驟:
感知(sensing)
格式化能被機器感知的對象
可能導致的問題:
光線條件,魚的位置,相機噪音等等
預處理(preprocessing)
改善數據
特征提取(feature extraction)
什么樣的特征可以區分不同種類
分類(classification)
支持向量機、決策樹等
模式識別系統
- 數據獲取&感知
測量物理變量
基于樣本質量,只有典型樣本有用,時間和成本是限制條件 - 預處理
移除噪音、隔離背景 - 特征提取
- 模式學習/估計
學習特征與模式類別的映射關系 - 分類
- 輸出處理
四、評價標準
訓練精度
過擬合問題
測試精度
參考鏈接:
文章列表