數據挖掘的方法論之談CRISP-DM

作者: 李海峰  來源: IT168  發布時間: 2010-10-14 07:18  閱讀: 5164 次  推薦: 0   原文鏈接   [收藏]  
摘要:當前CRISP-DM提供了一個數據挖掘生命周期的全面評述。他包括項目的相應周期,他們的各自任務和這些任務的關系。在這個描述層,識別出所有關系是不可能的。所有數據挖掘任務之間關系的存在是依賴用戶的目的、背景和興趣,最重要的還有數據。

  在1996年,當時數據挖掘市場是年輕而不成熟的,但是這個市場顯示了爆炸式的增長。三個在這方面經驗豐富的公司DaimlerChrysler、SPSS、NCR發起建立一個社團,目的建立數據挖掘方法和過程的標準。在獲得了EC(European Commission)的資助后,他們開始實現他們的目標。為了征集業界廣泛的意見共享知識,他們創建了CRISP-DM Special Interest Group(簡稱為SIG)。

  大概在1999年,SIG(CRISP-DM Special Interest Group)組織開發并提煉出CRISP-DM(CRoss-Industry Standard Process for Data Mining),同時在Mercedes-Benz和OHRA(保險領域)企業進行了大規模數據挖掘項目的實際試用。SIG還將CRISP-DM和商業數據挖掘工具集成起來。SIG組織目前在倫敦、紐約、布魯塞爾已經發展到200多個成員。

  當前CRISP-DM提供了一個數據挖掘生命周期的全面評述。他包括項目的相應周期,他們的各自任務和這些任務的關系。在這個描述層,識別出所有關系是不可能的。所有數據挖掘任務之間關系的存在是依賴用戶的目的、背景和興趣,最重要的還有數據。SIG 組織已經發布了CRISP-DM Version 1.0 Process Guide and User Manual的電子版,這個可以免費使用。


Figure: Phases of the CRISP-DM Process Model

  一個數據挖掘項目的生命周期包含六個階段。這六個階段的順序是不固定的,我們經常需要前后調整這些階段。這依賴每個階段或是階段中特定任務的產出物是否是下一個階段必須的輸入。上圖中箭頭指出了最重要的和依賴度高的階段關系。

  上圖的外圈象征數據挖掘自身的循環本質――在一個解決方案發布之后一個數據挖掘的過程才可以繼續。在這個過程中得到的知識可以觸發新的,經常是更聚焦的商業問題。后續的過程可以從前一個過程得到益處。

  業務理解 (Business Understanding)
  最初的階段集中在理解項目目標和從業務的角度理解需求,同時將這個知識轉化為數據挖掘問題的定義和完成目標的初步計劃。

  數據理解 (Data Understanding)
  數據理解階段從初始的數據收集開始,通過一些活動的處理,目的是熟悉數據,識別數據的質量問題,首次發現數據的內部屬性,或是探測引起興趣的子集去形成隱含信息的假設。

  數據準備 (Data Preparation)
  數據準備階段包括從未處理數據中構造最終數據集的所有活動。這些數據將是模型工具的輸入值。這個階段的任務有個能執行多次,沒有任何規定的順序。任務包括表、記錄和屬性的選擇,以及為模型工具轉換和清洗數據。

  建模(Modeling)
  在這個階段,可以選擇和應用不同的模型技術,模型參數被調整到最佳的數值。一般,有些技術可以解決一類相同的數據挖掘問題。有些技術在數據形成上有特殊要求,因此需要經常跳回到數據準備階段。

  評估(Evaluation)
  到項目的這個階段,你已經從數據分析的角度建立了一個高質量顯示的模型。在開始最后部署模型之前,重要的事情是徹底地評估模型,檢查構造模型的步驟,確保模型可以完成業務目標。這個階段的關鍵目的是確定是否有重要業務問題沒有被充分的考慮。在這個階段結束后,一個數據挖掘結果使用的決定必須達成。

  部署 (Deployment)
  通常,模型的創建不是項目的結束。模型的作用是從數據中找到知識,獲得的知識需要便于用戶使用的方式重新組織和展現。根據需求,這個階段可以產生簡單的報告,或是實現一個比較復雜的、可重復的數據挖掘過程。在很多案例中,這個階段是由客戶而不是數據分析人員承擔部署的工作。

0
0
 
標簽:數據挖掘
 
 

文章列表

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()