數據科學 - vamei－IT工程師數位筆記本

文章出處

作者：Vamei 出處：http://www.cnblogs.com/vamei 歡迎轉載，也請保留這段聲明。謝謝！

數據科學最近成為計算機的熱門領域。數據科學是利用計算機的運算能力對數據進行處理，從數據中提取信息，進而形成“知識”。它已經影響了計算機視覺、信號處理、自然語言識別等計算機分支。數據科學已經在IT、金融、醫學、自動駕駛等領域得到廣泛使用。(如果你熟知中情局的棱鏡泄密事件，你會發現數據科學已經在情報領域廣泛使用。)

在這系列文章中，我希望能完成從概率論，統計，到機器學習的整個數據分析的鏈條。傳統意義上的數據處理是用統計方法實現的，而概率論是統計的基礎。隨著計算機處理能力的增強，一些需要大量運算的數據分析方法得到快速發展。機器學習實際上是一個混合體，包括一些在計算機領域中發展的算法，也包括一些傳統統計中已經存在，但受限于計算能力的統計方法。另一方面，從數據中提煉知識是機器學習的主要目的，這與統計推斷密切相關。因此，從傳統的概率和統計出發，更容易理解機器學習的內涵。

當然，這樣做的困難之處是要覆蓋許多內容。嚴格的敘述有時會顯得比較無聊。我會盡力引入實用的編程例子，以便能形成更好的觸覺。編程工具會以Python語言為主，配以第三方的包，如Numpy, Scipy, Matplotlib, scikit-learn。統計和機器學習同樣可以在其他語言中實現，比如Matlab和R語言。如果你熟悉相應的工具，不難寫出類似功能的代碼。