大數據架構和模式(二)如何知道一個大數據解決方案是否適合您的組織
簡介
在確定投資大數據解決方案之前,評估可用于分析的數據;通過分析這些數據而獲得的洞察;以及可用于定義、設計、創建和部署大數據平臺的資源。詢問正確的問題是一個不錯的起點。使用本文中的問題將指導您完成調查。答案將揭示該數據和您嘗試解決的問題的更多特征。
盡管組織一般情況對需要分析的數據類型有一些模糊的理解,但具體的細節很可能并不清晰。畢竟,數據可能具有之前未發現的模式的關鍵,一旦識別了一種模式,對額外分析的需求就會變得很明顯。要幫助揭示這些未知的未知信息,首先需要實現一些基本用例,在此過程中,可以收集以前不可用的數據。構建數據存儲庫并收集更多數據后,數據科學家就能夠更好地確定關鍵的數據,更好地構建將生成更多洞察的預測和統計模型。
組織可能也已知道它有哪些信息是不知道的。要解決這些已知的未知,組織首先必須與數據科學家合作,識別外部或第三方數據源,實現一些依賴于此外部數據的用例。
本文首先嘗試回答大多數 CIO 在實施大數據舉措之前通常會提出的問題,然后,本文將重點介紹一種將幫助評估大數據解決方案對組織的可行性的基于維度的方法。
我的大數據問題是否需要大數據解決方案?
大數據,曾幾何時似乎很少出現
組織多半會選擇以增量方式實現大數據解決方案。不是每個分析和報告需求都需要大數據解決方案。如果對于對大型數據集或來自多個數據源的臨時報告執行并行處理的項目,那么可能沒有必要使用大數據解決方案。
隨著大數據技術的到來,組織會問自己:“大數據是否是我的業務問題的正確解決方案,或者它是否為我提供了業務機會?”大數據中是否隱藏著業務機會?以下是我從 CIO 那里聽到的一些典型問題:
- 如果我使用大數據技術,可能會獲得何種洞察和 業務價值?
- 它是否可以擴充我 現有的數據倉庫?
- 我如何評估 擴展當前環境 或采用新解決方案的成本?
- 對我現有的 IT 治理 有何影響?
- 我能否 以增量方式實現 大數據解決方案?
- 我需要掌握哪些 具體的技能 來理解和分析構建和維護大數據解決方案的需求?
- 我的 現有企業數據 能否用于提供業務洞察?
- 來自各種來源的 數據的復雜性 在不斷增長。大數據解決方案對我有幫助嗎?
維度可幫助評估大數據解決方案的可行性
為了回答這些問題,本文提出了一種依據下圖中所示的維度來評估大數據解決方案的可行性的結構化方法。
圖 1. 評估大數據解決方案的可行性時要考慮的維度
- 來自可通過分析數據獲得的洞察的業務價值
- 針對新數據來源和數據使用方式的治理考慮因素
- 擁有相關技能和贊助商的承諾的人員
- 捕獲的數據量
- 各種各樣的數據源、數據類型和數據格式
- 生成數據的速度,需要對它執行操作的速度,或者它更改的速度
- 數據的真實性,或者數據的不確定性和可信賴性
對于每個維度,我們都給出了一些關鍵問題。依據業務上下文,為每個維度分配一個權重和優先級。評估會因業務案例和組織的不同而有所不同。您可以考慮在與相關的業務和 IT 利益相關者召開的一系列研討會中探討這些問題。
業務價值:可通過大數據技術獲取何種洞察?
許多組織想知道,他們在尋找的業務洞察能否通過大數據解決方案解決。沒有權威的指南能夠用來定義可從大數據獲取的洞察。具體場景需要由組織識別,而且這些場景在不斷演變。在確定和識別在實現后會給企業帶來重大價值的業務用例和場景的過程中,數據科學家起著至關重要的作用。
數據科學家必須能夠理解關鍵績效指標,對數據應用統計算法和復雜算法來獲得一個用例列表。用例因行業和業務不同而有所不同。研究市場競爭對手的行動、發揮作用的市場力量,以及客戶在尋找什么,會很有幫助。下表給出了來自各行各業的用例示例。
表 1. 來自各行各業的示例用例
行業 | 示例用例 |
---|---|
電子商務和在線零售 | 電子零售商(比如 eBay)在不斷創建針對性產品來提高客戶終生價值 (CLV);提供一致的跨渠道客戶體驗;從銷售、營銷和其他來源收獲客戶線索;并持續優化后端流程。
|
零售和專注于客戶 |
|
金融服務 |
|
欺詐檢測 | 欺詐管理可預測給定交易或客戶帳戶遇到欺詐的可能性,幫助提高客戶帶來的利潤。解決方案將會實時分析交易,生成立即行動建議,這對阻止第三方欺詐、第一方欺詐和帳戶特權的蓄意濫用至關重要。解決方案通常設計用于跨多個行業檢測和阻止各種各樣的欺詐和風險類型,這些類型包括:
|
Web 和數字媒體 | 我們目前處理的許多數據是增多的社交媒體和數字營銷的直接后果。客戶生成一連串可挖掘并投入使用的 “數據廢氣”。
|
公共領域 |
|
健康和生命科學 |
|
電信 |
|
公用事業 | 公用事業公司運行大型、昂貴、復雜的系統來發電。每個電網包含監視電壓、電流、頻率和其他重要操作特征的復雜傳感器。效率意味著密切關注從傳感器傳來的所有數據。
公用事業公司現在正利用 Hadoop 集群來分析分析發電(供應)和電力消耗(需求)數據。 智慧儀表的采用導致前所未有的數據流洶涌而來。大多數公用事業公司都未做好充分準備在開啟儀表后分析該數據。 |
媒體 | 在有線行業,大型有線運營商(比如 Time Warner、Comcast 和 Cox Communications)每天都可以使用大數據來分析機頂盒數據。可以利用此數據來調整廣告或促銷活動。 |
雜項 |
|
潛在的客戶正在社交網絡和評論站點上生成大量新數據。在企業內,隨著客戶切換到在線渠道來執行業務和與公司交互,交易數據和 Web 日志與日俱增。
確定數據的優先級
首先為企業內存在的數據創建一個清單。識別內部系統和應用程序中存在的數據以及從第三方傳入的數據。如果業務問題可使用現有數據解決,那么有可能不需要使用來自外部來源的數據。
請考慮構建一個大數據解決方案的成本,并權衡它與帶給業務部門的新洞察的價值。
在有關現有客戶的歸檔數據的上下文中分析此新數據時,業務人員將獲得對新業務機會的洞察。
主要滿足以下條件,大數據可提供可行的解決方案:
- 從數據中開發的洞察所生成的價值,值得在大數據解決方案中投入的資本成本
- 面向客戶的場景可證明來自洞察的潛在價值
評估通過大數據解決方案獲取的業務價值時,請考慮您當前的環境是否可擴展并權衡此投資的成本。
我當前的環境能否擴展?
詢問以下問題,確定您能否擴充現有的數據倉庫平臺?
- 當前的數據集是否非常大,是否達到了 TB 或 PB 數量級?
- 現有的倉庫環境是否包含生成或獲取的所有 數據的存儲庫?
- 是否有大量冷數據或人們很少接觸的數據未分析,可以通過分析這些數據獲得業務洞察?
- 您是否需要丟棄數據,因為無法存儲或處理它?
- 您是否希望能夠在復雜且大量的數據上執行數據探索?
- 您是否希望能夠對非操作數據執行分析?
- 您是否有興趣使用數據執行傳統和新類型的分析?
- 您是否試圖延遲對現有數據倉庫的升級?
- 您是否在尋求途徑降低執行分析的總體成本?
如果任何這些問題的答案是 “是”,那么您就可以探索擴充現有數據倉庫環境的方式。
擴展我當前的環境的成本是多少?
擴展現有數據倉庫平臺或 IT 環境與實現大數據解決方案的成本和可行性取決于:
- 現有工具和技術
- 現有系統的可伸縮性
- 現有環境的處理能力
- 現有平臺的存儲能力
- 執行的治理和策略
- 現有 IT 應用程序的異構性
- 組織中存在的技術和業務技能。
它還依賴于將從新數據來源收集的數據量、業務用例的復雜性、處理的分析復雜性,以及獲取數據和擁有恰當技能集的人員的成本。現有的資源池能否開發新的大數據技能,或者是否可從外部雇傭擁有稀缺技能的人員?
請注意,大數據舉措會對其他正在實施的項目產生影響。從新的來源獲取數據具有很高的成本。您首先應當識別系統和應用程序內部存在的數據,以及目前收到的第三方數據,這一點很重要。如果業務問題可以使用現有數據解決,那么有可能不需要使用來自外部來源的數據。
在生成新工具和應用程序之前,請評估組織的應用程序組合。例如,一個普通的 Hadoop 平臺可能無法滿足您的需求,您可能必須購買專業的工具。或者相對而言,Hadoop 的商業版本對當前用例而言可能很昂貴,但可能需要用作長期投資來支持一個戰略性的大數據平臺。考慮大數據工具和技術需要的基礎架構、硬件、軟件和維護的成本。
對數據的治理和控制:對現有的 IT 治理有何影響?
在決定是否實現一個大數據平臺時,組織可能會查看新數據源和新的數據元素類型,而這些信息當前的所有權尚未明確定義。一些行業制度會約束組織獲取和使用的數據。例如,在醫療行業,通過訪問患者數據來從中獲取洞察是否合法?類似的規則約束著所有行業。除了 IT 治理問題之外,組織的業務流程可能也需要重新定義和修改,讓組織能夠獲取、存儲和訪問外部數據。
請在您的情況的上下文中考慮以下治理相關問題:
- 安全性和隱私— 為了與當地法規一致,解決方案可以訪問哪些數據?可以存儲哪些數據?哪些數據應在移動過程中加密?靜止數據呢?誰可以查看原始數據和洞察?
- 數據的標準化— 是否有標準約束數據?數據是否具有專用的格式?是否有部分數據為非標準格式?
- 數據可用的時段— 數據在一個允許及時采取操作的時段是否可用?
- 數據的所有權— 誰擁有該數據?解決方案是否擁有適當的訪問權和權限來使用數據?
- 允許的用法:允許如何使用該數據?
我能否增量地實現大數據解決方案?
大數據解決方案可以采用增量方式實現。明確地定義業務問題的范圍,并以可度量的方式設置預期的業務收入提升,這樣做會很有幫助。
對于基礎業務案例,請仔細列出問題的范圍和解決方案帶來的預期收益。如果該范圍太小,業務收益將無法實現,如果范圍太大,獲得資金和在恰當的期限內完成項目就會很有挑戰性。在項目的第一次迭代中定義核心功能,以便能夠輕松地贏得利益相關者的信任。
人員:是否已有恰當的技能并調整了合適的人員?
需要特定的技能來理解和分析需求,并維護大數據解決方案。這些技能包括行業知識、領域專長,以及有關大數據工具和技術的技術知識。擁有建模、統計、分析和數學方面的專業經驗的數據科學家,是任何大數據舉措成功的關鍵。
在實施一個新的大數據項目之前,確保已安排了合適的人員:
- 您是否獲得利益相關者和其他愿意投資該項目的業務贊助者的支持?
- 是否擁有熟悉該領域、能分析大量數據、而且能識別從數據生成有意義且有用的洞察的途徑的數據科學家?
是否擁有可用于獲取洞察的現有數據?
所有組織都擁有大量未用于獲取業務洞察的數據。這些數據包括日志文件、錯誤文件和來自應用程序的操作數據。不要忽略此數據,它是寶貴信息的潛在來源。
數據復雜性是否在增長?
查找數據復雜性增長的線索,尤其是在數據量、種類、速度和真實性方面。
數據量是否已增長?
如果滿足以下條件,您可能希望考慮大數據解決方案:
- 數據大小達到 PB 和 EB 級,而且在不久的將來,它們可能增長到 ZB 級別。
- 這一數據量給使用傳統方法(比如關系數據庫引擎)存儲、搜索、共享、分析和可視化數據帶來的技術和經濟挑戰。
- 數據處理目前可使用可用硬件上的大規模并行處理能力。
數據種類是否已增多?
如果滿足以下條件,各種各樣的數據可能都需要大數據解決方案:
- 數據內容和結構無法預期或預測。
- 數據格式各不相同,包括結構化、半結構化和非結構化數據。
- 用戶和機器能夠以任何格式生成數據,例如:Microsoft® Word 文件、Microsoft Excel® 電子表格、Microsoft PowerPoint 演示文稿、PDF 文件、社交媒體、Web 和軟件日志、電子郵件、來自相機的照片和視頻、信息感知的移動設備、空中感知技術、基因組和醫療記錄。
- 以前沒有為了獲得洞察而被挖掘的數據來源不斷地在產生新的數據類型。
- 領域實體在不同的上下文中具有不同的含義。
數據的速度是否已增長或改變?
考慮您的數據是否:
- 在快速更改,必須立即響應
- 擁有過多的傳統技術和方法,它們不再足以實時處理傳入的數據
您的數據是否值得信賴?
如果滿足以下條件,那么請考慮使用大數據解決方案:
- 數據的真實性或準確性未知。
- 數據包含模糊不清的信息。
- 不清楚數據是否完整。
如果數據的量、種類、速度或真實性具有合理的復雜性,那么有可能會適合地采用大數據解決方案。對于更復雜的數據,需要評估與實現大數據解決方案關聯的任何風險。對于不太復雜的數據,則應該評估傳統的解決方案。
是否所有大數據都存在大數據問題?
不是所有大數據情形都需要大數據解決方案。請在市場中尋找線索。競爭對手在做什么?哪些市場力量在發揮作用?客戶想要什么?
使用本文中的問題,幫助確定大數據解決方案是否適合于您的業務情形和您需要的業務洞察。如果認為是時候實施大數據項目了,請閱讀下一篇文章,其中會介紹如何定義一個邏輯架構,而且將會確定您的大數據解決方案需要的關鍵組件。