大數據架構和模式(一)大數據分類和架構簡介
相關文章:
大數據架構和模式(二)——如何知道一個大數據解決方案是否適合您的組織
大數據架構和模式(四)——了解用于大數據解決方案的原子模式和復合模式
大數據架構和模式(五)——對大數據問題應用解決方案模式并選擇實現它的產品
概述
大數據可通過許多方式來存儲、獲取、處理和分析。每個大數據來源都有不同的特征,包括數據的頻率、量、速度、類型和真實性。處理并存儲大數據時,會涉及到更多維度,比如治理、安全性和策略。選擇一種架構并構建合適的大數據解決方案極具挑戰,因為需要考慮非常多的因素。
這個 “大數據架構和模式” 系列提供了一種結構化和基于模式的方法來簡化定義完整的大數據架構的任務。因為評估一個業務場景是否存在大數據問題很重要,所以我們包含了一些線索來幫助確定哪些業務問題適合采用大數據解決方案。
從分類大數據到選擇大數據解決方案
如果您花時間研究過大數據解決方案,那么您一定知道它不是一個簡單的任務。本系列將介紹查找滿足您需求的大數據解決方案所涉及的主要步驟。
我們首先介紹術語 “大數據” 所描述的數據類型。為了簡化各種大數據類型的復雜性,我們依據各種參數對大數據進行了分類,為任何大數據解決方案中涉及的各層和高級組件提供一個邏輯架構。接下來,我們通過定義原子和復合分類模式,提出一種結構來分類大數據業務問題。這些模式有助于確定要應用的合適的解決方案模式。我們提供了來自各行各業的示例業務問題。最后,對于每個組件和模式,我們給出了提供了相關功能的產品。
第 1 部分將介紹如何對大數據進行分類。本系列的后續文章將介紹以下主題:
- 定義大數據解決方案的各層和組件的邏輯架構
- 理解大數據解決方案的原子模式
- 理解用于大數據解決方案的復合(或混合)模式
- 為大數據解決方案選擇一種解決方案模式
- 確定使用一個大數據解決方案解決一個業務問題的可行性
- 選擇正確的產品來實現大數據解決方案
依據大數據類型對業務問題進行分類
業務問題可分類為不同的大數據問題類型。以后,我們將使用此類型確定合適的分類模式(原子或復合)和合適的大數據解決方案。但第一步是將業務問題映射到它的大數據類型。下表列出了常見的業務問題并為每個問題分配了一種大數據類型。
表 1. 不同類型的大數據業務問題
業務問題 | 大數據問題 | 描述 |
---|---|---|
公用事業:預測功耗 | 機器生成的數據 |
公用事業公司推出了智慧儀表,按每小時或更短的間隔定期測量水、天然氣和電力的消耗。這些智慧儀表生成了需要分析的大量間隔數據。 公用事業公司還運行著昂貴而又復雜的大型系統來發電。每個電網包含監視電壓、電流、頻率和其他重要操作特征的復雜傳感器。 要提高操作效率,該公司必須監視傳感器所傳送的數據。大數據解決方案可以使用智慧儀表分析發電(供應)和電力消耗(需求)數據。 |
電信:客戶流失分析 | Web 和社交數據
交易數據 |
電信運營商需要構建詳細的客戶流失模型(包含社交媒體和交易數據,比如 CDR),以跟上競爭形勢。 流失模型的值取決于客戶屬性的質量(客戶主數據,比如生日、性別、位置和收入)和客戶的社交行為。 實現預測分析戰略的電信提供商可通過分析用戶的呼叫模式來管理和預測流失。 |
市場營銷:情緒分析 | Web 和社交數據 |
營銷部門使用 Twitter 源來執行情緒分析,以便確定用戶對公司及其產品或服務的評價,尤其是在一個新產品或版本發布之后。 客戶情緒必須與客戶概要數據相集成,才能得到有意義的結果。依據客戶的人口統計特征,客戶反饋可能有所不同。 |
客戶服務:呼叫監視 | 人類生成的 |
IT 部門正在依靠大數據解決方案來分析應用程序日志,以便獲取可提高系統性能的洞察。來自各種應用程序供應商的日志文件具有不同的格式;必須將它們標準化,然后 IT 部門才能使用它們。 |
零售:基于面部識別和社交媒體的個性化消息 | Web 和社交數據
生物識別 |
零售商可結合使用面部識別技術和來自社交媒體的照片,根據購買行為和位置向客戶提供個性化的營銷信息。 此功能對零售商忠誠度計劃具有很大的影響,但它具有嚴格的隱私限制。零售商需要在實現這些應用程序之前進行適當的隱私披露。 |
零售和營銷:移動數據和基于位置的目標 | 機器生成的數據
交易數據 |
零售商可根據位置數據為客戶提供特定的促銷活動和優惠券。解決方案通常旨在在用戶進入一個店鋪時檢測用戶的位置,或者通過 GPS 檢測用戶的位置。 位置數據與來自社交網絡的客戶偏好數據相結合,使零售商能夠根據購買歷史記錄針對性地開展在線和店內營銷活動。通知是通過移動應用程序、SMS 和電子郵件提供的。 |
FSS、醫療保健:欺詐檢測 | 機器生成的數據
交易數據 人類生成的 |
欺詐管理可預測給定交易或客戶帳戶遇到欺詐的可能性。解決方案可實時分析事務,生成建議的立即執行的措施,這對阻止第三方欺詐、第一方欺詐和對帳戶特權的蓄意濫用至關重要。 解決方案通常旨在檢測和阻止多個行業的眾多欺詐和風險類型,其中包括:
|
按類型對大數據問題分類,更容易看到每種數據的特征。這些特征可幫助我們了解如何獲取數據,如何將它處理為合適的格式,以及新數據出現的頻率。來自不同來源的數據具有不同的特征;例如,社交媒體數據包含不斷傳入的視頻、圖像和非結構化文本(比如博客文章)。
我們依據這些常見特征來評估數據,下一節將詳細介紹這些特征:
- 內容的格式
- 數據的類型(例如,交易數據、歷史數據或主數據)
- 將提供該數據的頻率
- 意圖:數據需要如何處理(例如對數據的臨時查詢)
- 處理是否必須實時、近實時還是按批次執行。
使用大數據類型對大數據特征進行分類
按特定方向分析大數據的特征會有所幫助,例如以下特征:數據如何收集、分析和處理。對數據進行分類后,就可以將它與合適的大數據模式匹配:
- 分析類型 — 對數據執行實時分析還是批量分析。請仔細考慮分析類型的選擇,因為這會影響一些有關產品、工具、硬件、數據源和預期的數據頻率的其他決策。一些用例可能需要混合使用兩種類型:
- 欺詐檢測;分析必須實時或近實時地完成。
- 針對戰略性業務決策的趨勢分析;分析可采用批量模式。
- 處理方法 — 要應用來處理數據的技術類型(比如預測、分析、臨時查詢和報告)。業務需求確定了合適的處理方法。可結合使用各種技術。處理方法的選擇,有助于識別要在您的大數據解決方案中使用的合適的工具和技術。
- 數據頻率和大小 — 預計有多少數據和數據到達的頻率多高。知道頻率和大小,有助于確定存儲機制、存儲格式和所需的預處理工具。數據頻率和大小依賴于數據源:
- 按需分析,與社交媒體數據一樣
- 實時、持續提供(天氣數據、交易數據)
- 時序(基于時間的數據)
- 數據類型 — 要處理數據類型 — 交易、歷史、主數據等。知道數據類型,有助于將數據隔離在存儲中。
- 內容格式(傳入數據的格式)結構化(例如 RDMBS)、非結構化(例如音頻、視頻和圖像)或半結構化。格式確定了需要如何處理傳入的數據,這是選擇工具、技術以及從業務角度定義解決方案的關鍵。
- 數據源 — 數據的來源(生成數據的地方),比如 Web 和社交媒體、機器生成、人類生成等。識別所有數據源有助于從業務角度識別數據范圍。該圖顯示了使用最廣泛的數據源。
- 數據使用者 — 處理的數據的所有可能使用者的列表:
- 業務流程
- 業務用戶
- 企業應用程序
- 各種業務角色中的各個人員
- 部分處理流程
- 其他數據存儲庫或企業應用程序
- 硬件 — 將在其上實現大數據解決方案的硬件類型,包括商用硬件或最先進的硬件。理解硬件的限制,有助于指導大數據解決方案的選擇。
圖 1 描繪用于分類大數據的各種類別。定義大數據模式的關鍵類別已識別并在藍色方框中突出顯示。大數據模式(將在下一篇文章中定義)來自這些類別的組合。
圖 1. 大數據分類
結束語和致謝
在本系列剩余部分中,我們將介紹大數據解決方案的邏輯架構和各層,從訪問到使用大數據。我們將提供數據源的完整列表,介紹專注于大數據解決方案的每個重要方面的原子模式。我們還將介紹復合模式,解釋可如何結合使用原子模式來解決特定的大數據用例。本系列最后將提供一些解決方案模式,在廣泛使用的用例與各個產品之間建立對應關系。
感謝 Rakesh R. Shinde 在定義本系列的整體結構上提供的指導,以及對本系列的審閱和提供的寶貴評論。