作者:Vamei 出處:http://www.cnblogs.com/vamei 歡迎轉載,也請保留這段聲明。謝謝!
數據科學最近成為計算機的熱門領域。數據科學是利用計算機的運算能力對數據進行處理,從數據中提取信息,進而形成“知識”。它已經影響了計算機視覺、信號處理、自然語言識別等計算機分支。數據科學已經在IT、金融、醫學、自動駕駛等領域得到廣泛使用。(如果你熟知中情局的棱鏡泄密事件,你會發現數據科學已經在情報領域廣泛使用。)
在這系列文章中,我希望能完成從概率論,統計,到機器學習的整個數據分析的鏈條。傳統意義上的數據處理是用統計方法實現的,而概率論是統計的基礎。隨著計算機處理能力的增強,一些需要大量運算的數據分析方法得到快速發展。機器學習實際上是一個混合體,包括一些在計算機領域中發展的算法,也包括一些傳統統計中已經存在,但受限于計算能力的統計方法。另一方面,從數據中提煉知識是機器學習的主要目的,這與統計推斷密切相關。因此,從傳統的概率和統計出發,更容易理解機器學習的內涵。
當然,這樣做的困難之處是要覆蓋許多內容。嚴格的敘述有時會顯得比較無聊。我會盡力引入實用的編程例子,以便能形成更好的觸覺。編程工具會以Python語言為主,配以第三方的包,如Numpy, Scipy, Matplotlib, scikit-learn。統計和機器學習同樣可以在其他語言中實現,比如Matlab和R語言。如果你熟悉相應的工具,不難寫出類似功能的代碼。
概率論
統計基礎
參數估計
區間估計
假設檢驗
線性回歸
ANOVA
無參估計
貝葉斯方法
多變量數據
PCA分析
時序分析
機器學習
聚類算法
神經網絡
馬科夫鏈
繪圖工具
1) matplotlib:
參考書籍
見豆列
文章列表