大數據架構和模式(五)對大數據問題應用解決方案模式并選擇實現它的產品

作者: Divakar等  來源: DeveloperWorks  發布時間: 2015-01-29 18:22  閱讀: 9863 次  推薦: 2   原文鏈接   [收藏]  
摘要:本文使用了一個基于場景的方法,概述了可能有助于定義大數據解決方案的解決方案模式。每個場景都從一個業務問題開始,并說明為什么需要大數據解決方案。本文會將一個具體的解決方案模式(由原子模式和復合模式組成)應用到業務場景。這個逐步分析的方法有助于用戶確定解決方案所需的組件。在文章的末尾,提供了一些建議使用的典型產品和工具。

  簡介

  本系列的 第 3 部分 描述了針對最常見的、經常發生的大數據問題及其解決方案的原子模式和復合模式。本文將推薦可以用于架構大數據解決方案的三個解決方案模式。每個解決方案模式都使用了一個復合模式,該模式由邏輯組件構成(參見第 3 部分的介紹)。在本文末尾處,列出了產品和工具清單,它們可映射到每一個解決方案模式的組件。

  解決方案模式

  以下各節將介紹可以用于架構大數據解決方案的三個解決方案模式。為了說明這些模式,我們將它們應用到特定的用例(例如,如何檢測醫療保險欺詐),但這些模式可以用于解決其他許多業務場景。每個解決方案模式都利用了一個復合模式的優勢。在下表中,列出了本文介紹的解決方案模式,以及作為其基礎的復合模式。

表 1. 每個解決方案模式所使用的復合模式
解決方案模式 復合模式
入門 存儲和探索
獲得高級業務洞察 專用和預測分析
采取下一個最佳行動 可操作的分析

  用例描述:保險欺詐

  財務欺詐對金融業的所有領域都帶來了巨大的風險。在美國,保險公司每年要損失數十億美元。在印度,僅僅是 2011 年的虧損總額就達到 3000 億印度盧比。除了經濟損失,保險公司還會失去一些業務,因為客戶感到不滿意。雖然許多保險監管機構已經定義了框架和流程來控制欺詐行為,但他們往往只是對欺詐做出反應,而不是采取主動措施來預防它們。傳統的方法(如循環列入黑名單的客戶、保險代理人和員工)并不能解決欺詐問題。

  本文為大數據解決方案提出了一種解決方案模式,以本系列的第 3 部分中介紹的邏輯架構以及 第 4 部分 中介紹的復合模式為基礎。

  保險欺詐是為了讓做出欺詐的當事人或其他關聯方獲得不正當或非法的好處的行為或疏忽。欺詐行為的種類包括:

  • 保單持有人欺詐和索賠欺詐— 在購買和執行保險產品時對保險公司的欺詐包括提出保險索賠時的欺詐。
  • 中介欺詐— 保險代理人、企業代理、中介或第三方代理人對保險公司或者保單持有人所做的欺詐。
  • 內部欺詐— 保險公司的董事、經理,或其他任何人員或辦公室成員對保險公司所做的欺詐。

  目前的欺詐檢測流程

  保險監管委員會已經建立了反欺詐政策,其中包括明確定義的欺詐行為監控流程、搜索潛在的欺詐指標(并發布列表)的流程,以及與執法部門協調的流程。保險公司配置了專門分析欺詐索賠的工作人員。

  目前的欺詐檢測流程的問題

  保險監管機構已明確定義了欺詐檢測和緩解的流程。傳統的解決方案使用的模型基于歷史欺詐數據、被列入黑名單的客戶和保險代理人,以及有關特定于領域的欺詐的數據。可用于檢測欺詐的數據被局制于給定保險公司的 IT 系統和一些外部源。

  目前的欺詐檢測流程大多是手工的,只能處理有限的數據集。保險公司可能無法調查所有指標。通常很遲才檢測到欺詐,而且保險公司很難對每個欺詐案例都進行適當的跟進。

  目前的欺詐檢測依賴于對現有欺詐案件的已知情況,所以每一種新型詐騙發生時,保險公司都不得不承擔第一次的損失。最傳統的方法在一個特定的數據源內工作,無法容納不斷增長的各種不同來源的數據。大數據解決方案可以幫助解決這些挑戰,并在保險公司的欺詐檢測中發揮重要作用。

  解決方案模式:入門

  該解決方案模式基于存儲和探索復合模式。它集中處理數據的獲得并存儲來自企業內部或外部的不同來源的相關數據。在圖 1 所示的數據源只是一個示例;領域專家可以識別適當的數據源。

  因為必須收集、存儲和處理來自多個來源的大量不同數據,此業務挑戰是大數據解決方案的良好候選場景。

  下圖顯示了解決方案模式,它映射到了在 第 3 部分 中介紹過的邏輯架構。

  圖 1. 入門解決方案模式

該圖顯示了邏輯層圖,此圖顯示了入門解決方案模式

點擊查看大圖

  圖 1 使用以下數據提供者:

  • 外部數據源
  • 結構化數據存儲
  • 經過轉換的結構化數據
  • 實體解析
  • 大數據瀏覽器組件

  醫療保健欺詐檢測所需的數據可以從不同的數據源和系統中獲得,比如銀行、醫療機構、社交媒體和 Internet 機構。這些數據包括來自博客、社交媒體、新聞機構、各機構的報告,以及 X 光報告等來源的非結構化數據。更多示例請參見圖 1 中的數據源層。利用大數據分析,這些不同來源的信息可相互關聯和組合,并且被分析(在已定義規則的幫助下),以確定欺詐的可能性。

  在這種模式中,所需的外部數據是從數據供應者那里獲得的,他們貢獻經過預處理的非結構化數據,這些數據已被轉化為結構化或半結構化數據。在經過初始預處理后,這些數據被存儲在大數據存儲中。下一步是找出可能的實體,并從數據生成即席報告。

  實體識別是在數據中識別命名元素的任務。識別分析所需的所有實體必須都被識別出來,包括那些與其他實體沒有關系的松散實體。實體識別主要由數據科學家和業務分析師執行。實體解析可以像根據數據關系和上下文識別單一實體或復雜實體一樣簡單。此模式使用了簡單形式的實體解析組件。

  您可以簡單地將結構化數據轉換成最適合于分析的格式,并直接存儲在大數據結構化存儲中。

  可以在此數據上執行即席查詢,以獲得相關信息:

  • 給定的客戶、區域、保險產品、代理或審批人員在給定期間內的整體欺詐風險
  • 某些代理或審批人員,或跨保險公司的客戶過往的索賠檢查

  顧名思義,組織一般采用這種模式開始使用大數據。組織采用探索式方法,根據可用的數據評估可以生成什么樣的洞察。在這個階段,組織一般不會對高級分析技術進行投資,比如機器學習、特征提取和文本分析。

  解決方案模式:獲得高級業務洞察

  這種模式比入門模式更高級。它在索賠處理的三個階段預測欺詐:

  1. 索賠已經解決。
  2. 索賠處理正在進行中。
  3. 剛剛收到索賠請求。

  對于前兩種情況,可以批量處理索賠,而且可以啟動欺詐檢測流程,它可能是常規報告流程的一部分,也可以由業務請求啟動。第 3 種情況可以近實時地進行處理。索賠請求攔截器會攔截索賠請求,啟動欺詐檢測流程(如果指示器報告這可能是一個欺詐案件),然后通知在系統中識別的利益相關者。越早檢測到欺詐,風險或損失的嚴重性就會越低。

圖 2. 獲得高級業務洞察的解決方案模式

邏輯層圖顯示了用于獲得高級業務洞察的解決方案模式

點擊查看大圖

  圖 2 使用:

  • 非結構化數據存儲
  • 結構化數據存儲
  • 經過轉換的結構化數據
  • 經過預處理的非結構化數據
  • 實體解析
  • 欺詐檢測引擎
  • 業務規則
  • 大數據瀏覽器
  • 對用戶的警告和通知
  • 索賠請求攔截器

  在這個模式中,組織可以在分析之前選擇對非結構化數據進行預處理。

  數據被獲取并按原樣存儲在非結構化數據存儲中。然后,它被預處理成可以被分析層使用的格式。有時,預處理可能會非常復雜和費時。您可以使用機器學習技術進行文本分析,Hadoop Image Processing Framework 對于處理圖像很有用。最廣​​泛使用的技術是 JSON。經過預處理的數據隨后被存儲在結構化數據存儲中,如 HBase。

  此模式的核心組件是欺詐檢測引擎,由高級分析功能構成,可以幫助預測欺詐。被明確定義并經常更新的欺詐指標有助于識別欺詐行為。下面欺詐指標可以幫助檢測欺詐,并且可以使用技術來實現打擊欺詐行為的系統。下面是常見欺詐指標的列表:

  • 保單生效后不久進行索賠。
  • 在處理索賠時發生嚴重核保失誤。
  • 被保險人在追求快速解決時具有明顯的攻擊性。
  • 被保險人愿意接受小額賠償,而不是記錄所有損失。
  • 文件的真實性值得懷疑。
  • 被保險人在背后償還貸款。
  • 所產生的傷害是不可見的。
  • 不存在已知傷亡的高價值索賠。
  • 個人集群之間存在關系,包括保單持有人、醫療機構、聯營公司、供應商與合作伙伴。
  • 持牌及非持牌醫療服務提供者之間存在聯系。

  僅使用傳統方法不足以預測詐騙。用戶還需要使用社交網絡分析來檢測持牌及非持牌醫療服務提供者之間的聯系,并檢測保單持有人、醫療機構、聯營公司、供應商與合作伙伴之間的關系。驗證文件的真偽,并找到個人的信用評分,這是用傳統方法難以完成的艱巨任務。

  在分析過程中,對所有這些指標的搜索可能會在龐大數量的數據上同時發生。每一個指標都被加權。所有指標的加權總值表示預測欺詐的準確性和嚴重程度。

  在分析完成后,可以向相關利益方發送警報和通知,并且可以生成報表,以顯示分析結果。

  此模式適合于需要使用大數據進行高級分析的企業,包括進行復雜的預處理,以利用先進的技術(如特征提取、實體解析、文本分析、機器學習和預測分析)可以進行分析的形式存儲數據。這種模式不涉及采取任何行動或根據分析的輸出提供建議。

  解決方案模式:采取下一個最佳行動

  在關于獲得高級業務洞察的解決方案模式中所做的欺詐預測通常導致應采取特定行動,例如拒絕索賠,或暫緩賠償,直至收到進一步的澄清和信息,或報告它,以采取法律行動。在這種模式中,為預測的每個結果定義了行動。這個行動對結果(action-to-outcome)的表被稱為行動決策矩陣

圖 3. 下一個最佳行動的解決方案模式

邏輯層圖顯示了用于獲得下一個最佳行動的解決方案模式

點擊查看大圖

  圖 3 使用:

  • 非結構化數據存儲
  • 結構化數據存儲
  • 經過轉換的結構化數據
  • 經過預處理的非結構化數據
  • 實體解析
  • 欺詐檢測引擎
  • 業務規則
  • 決策矩陣
  • 數據探索工具
  • 對用戶的警告和通知
  • 索賠請求攔截器
  • 對其他系統和業務流程組件的變更和通知

  通常可以采取 3 種行動:

  • 可以向利益相關者發送通知,以采取必要的行動,例如,通知用戶采取針對申索人的法律行動。
  • 系統在采取進一步行動之前通知用戶,并等待用戶的反饋。系統可以等待用戶響應任務,也可以停止或暫緩索賠處理事務。
  • 對于不需要人工干預的場景,系統可以采取自動行動。例如,系統可以向流程發送一個觸發器,以停止理賠程序,并將有關申索人、代理人和審批人的信息通知給法律部門。

  此模式適合于需要使用大數據進行高級分析的企業。此模式使用高級功能來檢測欺詐行為,通知并提醒相關利益方,啟動自動工作流,根據處理的結果采取行動。

  形成大數據解決方案骨干的產品和技術

  下圖顯示了大數據軟件如何映射到第 3 部分中所描述的邏輯架構的各個組件。這些產品、技術或解決方案可以在大數據解決方案中使用;必須根據您自己的需求和環境來決定選擇用于部署的工具。

  圖 4 顯示了大數據設備,如 IBM PureData™ System for Hadoop 和 IBM PureData System for Analytics,它們跨越多個層次。這些設備具有內置的可視化、內置的分析加速器,以及單一系統控制臺等特性。使用設備有很多優點。(請參閱 參考資料,了解有關 IBM PureData System for Hadoop 的更多信息。)

圖 4. 映射到邏輯層次圖的產品和技術

邏輯層圖顯示了一些產品

點擊查看大圖

  在欺詐檢測中使用大數據分析的好處

  與傳統方法相比,使用大數據分析來檢測欺詐具有多種優勢。保險公司可以構建包含所有相關數據源的系統。一個包羅萬象的系統有助于檢測不常見的欺詐案件。預測模型等技術可以深入分析欺詐實例,篩選明顯的案例,并參照低發欺詐案件執行進一步分析。

  大數據解決方案還可以幫助建立整個企業的反欺詐工作的全局視角。通過鏈接組織內的關聯信息,全局視角往往導致更好的欺詐檢測。欺詐行為可以在多個起源點發生:理賠、保險退保、繳費、申請新的保單,或者與員工相關的欺詐或第三方欺詐。各種來源的數據相結合可以實現更好的預測。

  分析技術使組織能夠從非結構化數據中提取重要信息。雖然大量結構化信息存儲在數據倉庫中,大多數關于欺詐的關鍵信息都是非結構化數據,比如第三方報告,它們很少被分析。在大多數保險機構中,社交媒體數據沒有被正確地存儲或分析。

  結束語

  利用基于保險行業中的識別欺詐用例的業務場景,本文介紹了復雜性各不相同的幾種解決方案模式。最簡單的模式解決來自不同來源的數據的存儲,并執行一些初步的探索。最復雜的模式涵蓋如何從數據中獲得洞察,并根據分析采取行動。

  每一個業務場景都被映射到組成解決方案模式的相應原子模式和復合模式。架構師和設計師可以應用解決方案模式來定義高級的解決方案,以及相應的大數據解決方案的功能組件。

2
1
 
標簽:大數據
 
 

文章列表

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()