後金融危機時(shí)代,花旗銀行是如何提高(gāo)數據質量的(de)?

發布時(shí)間:2016-07-20  |   來(lái)源: 川總寫量化(huà)

作者:石川

摘要:本文介紹世界頂級金融機構花旗銀行如何處理(lǐ)并提高(gāo)數據質量。


0 引言


量化(huà)投資決策的(de)數學模型要分(fēn)析大(dà)量的(de)宏觀經濟數據以及股票(piào)交易數據,模型有效與否直接由輸入數據的(de)質量決定。垃圾進,垃圾出(garbage in, garbage out),模型輸出結果的(de)質量隻會比輸入數據的(de)質量更差。那麽,一套科學、完整、有效的(de)數據質量分(fēn)析框架就顯得(de)格外重要。今天,我們就來(lái)爲你介紹世界頂級金融機構花旗銀行是如何處理(lǐ)并提高(gāo)數據質量的(de)。


1 契機


2008 年全球金融危機暴露了(le)美(měi)國金融體系的(de)内在缺陷,危機過後政府部門普遍提高(gāo)了(le)對(duì)金融機構的(de)監管要求和(hé)監管力度。對(duì)于金融機構自身而言,數以萬計決策的(de)制定倚賴數以億計數據的(de)準确性,金融危機充分(fēn)暴露了(le)這(zhè)個(gè)領域存在嚴重問題。因此,來(lái)自危機的(de)警示和(hé)趨于嚴苛的(de)監管,共同促使金融機構重新審視提高(gāo)數據質量的(de)重要性。筆者有幸于 2011 年就職于全球最大(dà)的(de)金融機構之一的(de)花旗銀行并直接參與數據質量的(de)工作。本文對(duì)花旗銀行改善數據質量的(de)分(fēn)析框架進行簡單梳理(lǐ)。感興趣的(de)讀者可(kě)以進一步參閱我和(hé)當時(shí)的(de)同事爲此發表的(de)論文 Shi et al. (2015) 以及出版物(wù) Jugulum (2014)。


2 CDO


作爲行業的(de)領袖之一,花旗銀行在 2009 年下(xià)半年成立了(le)企業層面的(de)數據辦公室(Chief Data Office,下(xià)稱 CDO),主要有兩個(gè)作用(yòng):


制度層面,負責在公司内制定和(hé)形成數據管理(lǐ)的(de)紀律和(hé)文化(huà);


執行層面,爲公司各項業務提高(gāo)數據質量。


通(tōng)過這(zhè)個(gè)部門,花旗将數據質量的(de)實時(shí)監控深入到日常運作的(de)方方面面,幫助及時(shí)發現包括流動性、信貸、市場(chǎng)、保險和(hé)運營在内的(de)各項風險。花旗堅信,高(gāo)質量的(de)數據不僅是企業競争力的(de)關鍵所在,也(yě)有助于提升監管部門的(de)信心。


3 分(fēn)析框架


這(zhè)個(gè)新成立的(de)數據部門包括幾個(gè)小組,而我在的(de)組專門負責數據分(fēn)析和(hé)改進。這(zhè)個(gè)組由數據專家和(hé)分(fēn)析師組成,負責構建數據質量的(de)監控和(hé)改進框架。整個(gè)分(fēn)析框架由兩部分(fēn)組成。


首先是通(tōng)過“漏鬥法”、利用(yòng)統計學手段确定需要監控和(hé)改善的(de)數據元素。數據元素可(kě)以定義爲在銀行的(de)各項業務中用(yòng)到的(de)數據屬性(比如客戶的(de)姓名就是一個(gè)數據元素,它可(kě)以被用(yòng)于賬戶管理(lǐ)、市場(chǎng)營銷以及客戶服務這(zhè)些業務中)。銀行業務繁雜(zá),有數以萬計的(de)數據元素,因此必須找到對(duì)運營、服務、監管等應用(yòng)場(chǎng)景成敗與否最至關重要的(de)數據元素,把有限的(de)人(rén)力和(hé)資源用(yòng)來(lái)提高(gāo)它們的(de)質量。被選出的(de)核心數據元素稱爲 CDEs(Critical Data Elements)。


當 CDEs 确定之後,采用(yòng)流程改善的(de)經典工具 6 Sigma(譯作六西格瑪)對(duì)這(zhè)些數據進行實時(shí)的(de)監控和(hé)分(fēn)析。通(tōng)過監控數據質量判斷産生這(zhè)些 CDEs 的(de)業務過程是否出現纰漏或者異常變化(huà),及時(shí)發現這(zhè)些業務的(de)潛在風險并采取有效的(de)措施避免可(kě)能的(de)損失。


接下(xià)來(lái),我們就來(lái)看看漏鬥法是如何篩選核心數據元素的(de)(這(zhè)是花旗銀行的(de)獨創)。對(duì)于 6 Sigma,由于它是業界廣爲人(rén)知的(de)過程改善方法,我們隻稍作提及但不會重點描述。爲了(le)結合實際,我們将用(yòng)巴塞爾第二協定的(de)用(yòng)例來(lái)說明(míng)花旗的(de)數據質量分(fēn)析框架。


4 漏鬥法


漏鬥法包含核心數據元素的(de)識别和(hé)優選兩部分(fēn)(流程圖見圖 1)。


識别階段(前兩步),通(tōng)過業務專家(subject matter experts)和(hé)評分(fēn)矩陣初步篩選出核心數據元素。一般來(lái)說,在這(zhè)個(gè)階段過後,被選出的(de)元素個(gè)數仍然太多(duō)。


優選階段(後兩步),通(tōng)過統計學中的(de)相關性和(hé)信噪比分(fēn)析進一步過濾不必要的(de)數據元素,得(de)到最終的(de)核心數據元素。


f1.png

圖 1 漏鬥法識别和(hé)優選核心數據元素 CDEs

 

漏鬥法因“輸入元素多(duō)、輸出元素少”而得(de)名。下(xià)面我們将按照(zhào)先後順序,對(duì)漏鬥法的(de)這(zhè)四個(gè)步驟分(fēn)别進行詳述。


4.1 引入業務專家,“客戶需求”是重中之重


引入業務專家觀點是這(zhè)個(gè)分(fēn)析框架的(de)核心之一。一切提高(gāo)數據質量的(de)努力都是爲了(le)每一個(gè)具體的(de)業務用(yòng)例,而業務專家在這(zhè)個(gè)過程中就是“客戶”,數據元素的(de)鑒别必須從“客戶需求”(voice of customers)開始。業務專家爲 CDO 的(de)數據專家解釋業務過程的(de)商業邏輯,闡明(míng)該業務的(de)輸入和(hé)輸出數據元素都有哪些。在二者的(de)配合下(xià),由業務專家首先拟定候選核心數據元素。在巴塞爾第二協定這(zhè)個(gè)用(yòng)例中,花旗的(de)相關業務專家首先鑒别出 35 個(gè)數據元素。


4.2 使用(yòng)評分(fēn)矩陣,按對(duì)業務的(de)重要性爲數據元素打分(fēn)


雖然業務專家可(kě)以初選出很好的(de)候選數據元素,但進一步的(de)篩選就需要一個(gè)可(kě)以量化(huà)的(de)科學體系了(le),評分(fēn)矩陣便應運而生。


f3.png

圖 2 數據元素評分(fēn)框架


評價矩陣如圖 2 所示。首先選出一系列和(hé)業務相關的(de)數據評價标準,并按照(zhào)其重要性打分(fēn)。爲了(le)有一定的(de)區(qū)分(fēn)度,分(fēn)數分(fēn)爲 1、4、7、10 四檔。其次,将每個(gè)數據元素按每個(gè)評價标準的(de)規則進行打分(fēn),打分(fēn)同樣按照(zhào) 1、4、7、10 四擋。将标準的(de)重要性得(de)分(fēn)和(hé)數據元素對(duì)于該标準的(de)得(de)分(fēn)兩兩相乘再求和(hé),便得(de)到每個(gè)元素的(de)總分(fēn),并根據這(zhè)個(gè)總分(fēn)把它們從高(gāo)到低排序。這(zhè)個(gè)評分(fēn)矩陣幫助業務專家對(duì)候選元素進行量化(huà)比較。在巴塞爾協定用(yòng)例中,利用(yòng)這(zhè)個(gè)評價矩陣,業務專家從 35 個(gè)候選元素中選出了(le)分(fēn)數最高(gāo)的(de) 21 個(gè)。


4.3 進行相關性分(fēn)析,進一步精簡核心數據元素


在漏鬥法的(de)第三步,相關性分(fēn)析被用(yòng)來(lái)檢查是否有多(duō)個(gè)數據元素具有很高(gāo)的(de)相關性。這(zhè)是因爲如果兩個(gè)元素的(de)相關性非常高(gāo),那麽我們隻監測其中一個(gè)即可(kě)。這(zhè)樣能進一步減少核心數據元素的(de)個(gè)數。對(duì)于連續的(de)數據元素(比如用(yòng)戶的(de)存款數)和(hé)離散的(de)數據元素(比如客戶的(de)姓名),回歸分(fēn)析和(hé)關聯分(fēn)析分(fēn)别被用(yòng)來(lái)檢查元素之間的(de)相關性(注:在金融行業的(de)用(yòng)例中,線性相關性一般來(lái)說就足夠了(le))。


圖 3 顯示了(le)在我們的(de)用(yòng)例中,部分(fēn)候選元素之間的(de)相關性。值得(de)一提的(de)是,相關系數的(de)取值在 -1 到 1 之間,越接近 1 說明(míng)正相關性越高(gāo),越接近 -1 說明(míng)負相關性越高(gāo),越接近 0 說明(míng)線性相關性越不明(míng)顯(注:也(yě)許它們有非線性相關性,但不在我們考慮範圍内)。在應用(yòng)中,0.85 和(hé) -0.85 被用(yòng)來(lái)當作高(gāo)相關性的(de)阈值。


f4.png

圖 3 元素之間的(de)線性相關性


相關分(fēn)析顯示,有 10 個(gè)元素組成了(le) 8 對(duì)兩兩相關的(de)配對(duì)。這(zhè)表明(míng),我們隻需要從這(zhè) 10 個(gè)元素中選出 4 個(gè)即可(kě);另外 6 個(gè)元素将和(hé)這(zhè) 4 個(gè)元素高(gāo)度相關。如何進行 10 選 4 能?信噪比分(fēn)析将隆重登場(chǎng)。


4.4 通(tōng)過信噪比分(fēn)析,确定最終核心數據元素名單


信噪比源于質量控制,用(yòng)來(lái)測量信号相對(duì)于環境噪聲的(de)大(dà)小(Taguchi 1986, Taguchi and Jugulum 1999)。信噪比定義如下(xià):


e1.png


這(zhè)個(gè)定義說明(míng)信噪比低的(de) CDE 有更大(dà)的(de)波動性。數據的(de)波動性往往說明(míng)産生這(zhè)個(gè)數據的(de)業務過程有更大(dà)的(de)不确定性、因此需要實時(shí)的(de)監控。因此對(duì)于兩個(gè)高(gāo)度相關的(de)數據元素,我們選擇信噪比低的(de)作爲需要監控的(de)對(duì)象。對(duì) 4.3 節提到的(de) 10 個(gè)元素計算(suàn)信噪比,結果如圖 4 所示,我們從中選取信噪比低的(de) 4 個(gè)元素。


f5.png

圖 4 高(gāo)度相關數據元素的(de)信噪比


通(tōng)過相關性和(hé)信噪比分(fēn)析,我們進一步舍棄6個(gè)數據元素。最終,整個(gè)漏鬥法的(de)四個(gè)步驟将核心數據元素個(gè)數由原始的(de) 35 個(gè)降至最終的(de) 15 個(gè)(減少了(le) 57%)。這(zhè)爲後面數據質量的(de)檢測大(dà)大(dà)減少了(le)所需的(de)人(rén)力和(hé)資源。


5 數據質量監測和(hé)改善


核心數據元素确定後,便可(kě)對(duì)它們的(de)質量進行實時(shí)監測,一旦發現問題便可(kě)采用(yòng) 6 Sigma 方法改進業務流程,防範風險。想要量化(huà)數據質量,必須首先選取評價的(de)維度,它們稱爲數據質量維度(data quality dimension)。一個(gè)數據質量維度可(kě)以定義爲描繪該數據在某一方面的(de)質量的(de)屬性,比如數據的(de)完整性、一緻性、有效性、準确性等。


舉個(gè)例子,客戶年齡是一個(gè)數據元素,如果所有的(de)客戶在客戶年齡這(zhè)個(gè)元素上都有數值,則這(zhè)個(gè)元素在完整性這(zhè)個(gè)屬性上的(de)數據質量是滿分(fēn)。但完整性僅僅刻畫(huà)單一特性,所以我們并不知道用(yòng)戶的(de)年齡是否正确(比如用(yòng)戶 A 可(kě)能實際是 30 歲但我們的(de)記錄顯示爲 40 歲)、取值是否有效等(比如我們的(de)記錄可(kě)能顯示用(yòng)戶B的(de)年齡爲 -1,這(zhè)顯然是無效的(de))。因此,需要從多(duō)個(gè)維度考慮數據元素的(de)綜合質量。圖 5 顯示了(le)在巴塞爾用(yòng)例中,最終确定的(de) 15 個(gè)核心數據元素在完整性、一緻性和(hé)有效性三個(gè)維度上的(de)質量得(de)分(fēn)(注:表中數據僅是模拟分(fēn)數,并非真實分(fēn)數)。


f6.png

圖 5 數據質量得(de)分(fēn)


量化(huà)的(de)數據質量使得(de)我們可(kě)以通(tōng)過統計過程控制(statistical process control)對(duì)數據質量進行監測。一旦發現異常值或者數據質量的(de)突然惡化(huà),便根據數據産生的(de)邏輯順藤摸瓜找到産生數據的(de)業務環節,然後采用(yòng) 6 Sigma 流程改善中的(de)經典分(fēn)析方法對(duì)業務進行完善,真正的(de)做(zuò)到有的(de)放矢。


6 結語


數據是金融機構最重要的(de)無形資産。無論是銀行、公募私募基金、互聯網金融公司,高(gāo)質量的(de)數據都是它們賴以生存的(de)前提條件。特别的(de),對(duì)于量化(huà)投資來(lái)說,投資決策的(de)數學模型要分(fēn)析大(dà)量的(de)宏觀經濟數據以及股票(piào)交易數據。這(zhè)些模型有效與否由輸入數據的(de)質量直接決定。所謂垃圾進,垃圾出(Garbage in, garbage out),模型輸出結果的(de)質量隻會比輸入數據的(de)質量更差。然而,業界并沒有多(duō)少文獻系統的(de)闡述一個(gè)能被直接應用(yòng)于實際的(de)數據質量分(fēn)析框架。在這(zhè)方面,花旗可(kě)謂是先驅之一。希望通(tōng)過今天的(de)介紹,讓更多(duō)的(de)小夥伴了(le)解到世界頂尖銀行在這(zhè)方面所做(zuò)的(de)努力;更希望有人(rén)能因此受到啓發,把數據質量的(de)提高(gāo)帶入到他(tā)們自己的(de)投資實戰中。



參考文獻

R. Jugulum (2014). Competing with High Quality Data: Concepts, Tools, and Techniques for Building a Successful Approach to Data Quality. Wiley.

Shi, C., R. Jugulum, H. I. Joyce, J. Singh, B. Granese, R. Ramachandran, D. Gray, C. H. Heien, J. R. Talburt (2015). Improving Financial Services Data Quality – a Financial Company Practice. International Journal of Lean Six Sigma 6(2), 98 – 110.

Taguchi, G. (1986), Introduction to Quality Engineering, Asian Productivity Organization, Tokyo.

Taguchi, G. and R. Jugulum (1999). Role of S/N ratios in multivariate diagnosis. Journal of Japanese Quality Engineering Society 7(6), 63 – 69.



免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。