數據驅動的(de)投資思想史
發布時(shí)間:2023-01-28 | 來(lái)源: 川總寫量化(huà)
作者:石川
摘要:推薦友王聞老師關于另類數據的(de)新書(shū)姊妹篇《另類數據:理(lǐ)論與實踐》與《另類數據:投資新動力》。
0
數據,無論它被賦予“傳統”還(hái)是“另類”的(de)标簽,是投資中最重要的(de)組成部分(fēn)。沒有數據、沒有高(gāo)質量的(de)數據,再厲害的(de)模型、再高(gāo)效的(de)算(suàn)法也(yě)是徒勞。
在 CRSP 被建立之前,華爾街(jiē)充斥著(zhe)某某一夜暴富的(de)傳說;而當 CRSP 出現之後,對(duì)股市的(de)定量研究走上了(le)台面,Eugene Fama 的(de)有效市場(chǎng)假說成爲了(le)範式。在 Compustat 被推出之前,人(rén)們對(duì)基本面數據和(hé)股票(piào)價格是否有任何聯系持懷疑态度;而應用(yòng) Compustat 數據,Ball and Brown 通(tōng)過 event study 證實公司盈餘和(hé)股價之間的(de)密切關聯。從此,會計學也(yě)體面地從研究記賬轉向研究财務信息如何影(yǐng)響資本市場(chǎng)。在 Odean 數據集(retail investor 交易賬戶數據)普及之前,人(rén)們将 CAPM 或 Fama-French 三因子模型下(xià)的(de)異象解釋爲數據挖掘(data snooping)或風險補償的(de)産物(wù);而以 Odean 數據集爲研究目标的(de)行爲金融學的(de)發展爲各種因子和(hé)異象背後的(de)成因提供了(le)新的(de)依據。在 I/B/E/S 分(fēn)析師一緻預期數據被完善之前,學界和(hé)業界研究股票(piào) cross-section 的(de)協變量焦點聚焦于來(lái)自基本面(比如 value)和(hé)技術面(比如 momentum);而 I/B/E/S Estimates 數據極大(dà)拓展了(le)協變量的(de)範疇,爲資産定價和(hé)量化(huà)投資提供了(le)不可(kě)或缺的(de)增量信息。
……
我們可(kě)以把上面的(de)排比段一直延續下(xià)去,而不斷湧現的(de)數據集也(yě)向人(rén)們明(míng)确地傳達出兩個(gè)信号:(1)無論是 CRSP、Compustat、Odean 還(hái)是 I/B/E/S 數據集,在它們被提出之初,對(duì)于彼時(shí)投資者而言,均是全新的(de)存在。雖然如今它們早已家喻戶曉,但在當初依然可(kě)以被視作不折不扣的(de)“另類”數據。(2)新數據以及随之而來(lái)的(de)新的(de)分(fēn)析方法的(de)出現,不斷重新塑造并推動了(le)人(rén)們對(duì)于金融市場(chǎng)的(de)理(lǐ)解。
人(rén)們對(duì)于新數據的(de)包容性接受和(hé)創造性使用(yòng),恰恰是一部由數據驅動的(de)投資思想史。站在當下(xià),面對(duì)數據在過往投資中發揮的(de)作用(yòng),似乎怎麽強調數據的(de)重要性都不過分(fēn);而展望未來(lái),我們又應該怎樣以客觀的(de)眼光(guāng)和(hé)科學的(de)手段面對(duì)和(hé)使用(yòng)新數據呢(ne)?爲了(le)回答(dá)這(zhè)個(gè)問題,以數據的(de)視角回顧一下(xià)投資方法論創新的(de)發展,并以此爲起點更好地迎接未來(lái)新數據帶來(lái)的(de)想法創新和(hé)風險挑戰似乎成爲了(le)一個(gè)必然之舉。
這(zhè)也(yě)正是今天我想鄭重推薦好友王聞老師和(hé)他(tā)的(de)合作者孫佰清老師關于另類數據的(de)新書(shū)姊妹篇《另類數據:理(lǐ)論與實踐》與《另類數據:投資新動力》的(de)初衷。不過在那之前,先讓我們跟随王老師的(de)精彩描述,回顧一下(xià)數據驅動的(de)投資思想史。我可(kě)以摸著(zhe)良心說,這(zhè)段回顧精彩紛呈!(以下(xià)小結節選自《另類數據:投資新動力》尾聲,有删減,參考文獻有更新。另外我在适當的(de)地方,加入了(le) [川總寫量化(huà)]/[因子動物(wù)園] 公衆号之前創作的(de)相關内容的(de)鏈接,供讀者參考。)
1
學術界通(tōng)過數據來(lái)分(fēn)析資本市場(chǎng),可(kě)以追溯到 Alfred Cowles (1933)。Cowles 是《計量經濟學》這(zhè)本全球經濟學頂刊的(de)創辦人(rén)之一,他(tā)在這(zhè)本期刊的(de)第一卷上發表了(le)題爲《股市預測者能夠預測嗎?》的(de)文章(zhāng)。在這(zhè)篇文章(zhāng)中,Cowles 搜集了(le)金融機構推薦的(de)股票(piào)、保險公司的(de)股票(piào)交易記錄、《華爾街(jiē)日報》中的(de)社論以及金融機構的(de)投資通(tōng)訊等四類“股市預測者”,通(tōng)過那個(gè)時(shí)代能夠理(lǐ)解的(de)數據分(fēn)析工具,對(duì)文章(zhāng)标題的(de)問題給了(le)簡單明(míng)了(le)的(de)回答(dá):“這(zhè)是值得(de)懷疑的(de)”。十年之後,Cowles (1944) 在《計量經濟學》發表的(de)一項新的(de)研究,其中使用(yòng)了(le) 15 年内将近 7000 個(gè)預測數據。結果再次表明(míng)“沒有任何證據能夠證實,人(rén)們能夠成功預測股市的(de)未來(lái)走勢”。
時(shí)間來(lái)到二戰之後,倫敦經濟學院的(de)統計學教授 Maurice Kendall (1953) 在《皇家統計學會雜(zá)志》這(zhè)本曆史最悠久的(de)統計學雜(zá)志上發表了(le)《經濟的(de)時(shí)間序列分(fēn)析》,在這(zhè)篇文章(zhāng)中,Kendall 研究了(le)股票(piào)市場(chǎng)和(hé)商品期貨市場(chǎng)的(de)價格數據,結果表明(míng)資産價格“序列的(de)數字就好像是在‘漫遊’”。Cowles-Kendall 的(de)分(fēn)析構成了(le)資産價格随機遊走假說的(de)最初證據。按照(zhào)古典經濟學思想,價格是由供需決定的(de),在此基礎上通(tōng)過蛛網模型刻畫(huà)的(de)價格動态變化(huà)就會有著(zhe)明(míng)确的(de)變化(huà)模式。然而 Cowles-Kendall 的(de)數據分(fēn)析結果并沒有支持這(zhè)種價格有規律變動的(de)假說。
1960 年,芝加哥(gē)大(dà)學的(de) James Lorie 和(hé) Lawrence Fisher 在美(měi)林(lín)證券的(de)支持下(xià),創立了(le)證券價格研究中心(CRSP)。它與其說是研究中心,不如說是一個(gè)曆史股價的(de)數據庫。一開始它顯然是那個(gè)時(shí)代的(de)“另類”數據集,這(zhè)并不妨礙它後來(lái)成長(cháng)爲全球金融市場(chǎng)數據研究中最常使用(yòng)的(de)數據庫。CRSP 的(de)出現激發了(le)更多(duō)學者開始關注金融市場(chǎng)的(de)價格,很快(kuài)金融市場(chǎng)的(de)研究摒棄了(le)古典經濟學的(de)價格理(lǐ)論,從經濟學的(de)邊緣走到了(le)經濟學的(de)中心舞台。
不久之後的(de) 1964 年,麻省理(lǐ)工學院的(de)教授 Paul Cootner 把相關文章(zhāng)彙編成冊,由此産生了(le)當時(shí)影(yǐng)響深遠(yuǎn)的(de)第一本金融實證分(fēn)析論文集:《股票(piào)價格的(de)随機特征》。在應用(yòng) CRSP 數據庫方面,芝加哥(gē)大(dà)學教授、2013 年諾貝爾經濟學獎得(de)主 Eugene Fama 絕對(duì)是關鍵性的(de)人(rén)物(wù)。面對(duì)随機遊走的(de)實證證據,作爲博士剛畢業不久的(de)年輕人(rén),Fama 在 1965 年的(de)《商業雜(zá)志》上全文發表了(le)其博士論文《股市價格行爲》。這(zhè)篇近 70 多(duō)頁的(de)長(cháng)文,一方面應用(yòng)各種當時(shí)的(de)統計技術分(fēn)析價格,另一方面也(yě)對(duì)資産價格的(de)随機特征給出了(le)直覺性的(de)經濟解釋:影(yǐng)響資産價格的(de)關鍵是投資者的(de)預期,而影(yǐng)響預期的(de)則是信息,因爲信息是以不可(kě)預見的(de)方式到達市場(chǎng),所以價格是随機變動的(de)。
這(zhè)一簡單而又深刻的(de)論述把預期、信息這(zhè)些關鍵概念引入到資産價格分(fēn)析中,打破了(le)古典經濟學圍繞供需論述價格形成機制的(de)思想梏桎。幾年之後,Fama (1970) 把 1965 年文章(zhāng)的(de)思想總結爲“一個(gè)價格始終‘充分(fēn)反映’可(kě)得(de)信息的(de)市場(chǎng)被稱爲是‘有效的(de)’”。至此,金融經濟學領域中經典的(de)“有效市場(chǎng)假說”問世了(le)。後來(lái)這(zhè)個(gè)思想超出了(le)金融學的(de)範疇,延伸到社會科學的(de)其他(tā)領域。
在有效市場(chǎng)假說形成的(de)過程中,除了(le)針對(duì)資産價格自身時(shí)間序列分(fēn)析得(de)到的(de)随機波動特征之外,另外一個(gè)重要脈線是事件研究(event study),也(yě)就是分(fēn)析特定公司事件對(duì)股價的(de)影(yǐng)響。顯然,事件研究需要使用(yòng)能夠反映公司基本面的(de)财報數據,以及各種公司公告的(de)資料。在這(zhè)方面最爲重要的(de)數據庫是标準普爾這(zhè)家金融服務商提供的(de) Compustat。
事件研究的(de)起點(之一)是芝加哥(gē)大(dà)學的(de) Ray Ball 和(hé)西澳大(dà)學的(de) Phillip Brown 在 1968 年做(zuò)的(de)研究,他(tā)們應用(yòng) Compustat 數據庫,分(fēn)析了(le)公司盈餘對(duì)股價的(de)影(yǐng)響,結果表明(míng)當公司發布正向盈餘時(shí),股價就會迅速做(zuò)出正向反應,反之亦然。這(zhè)個(gè)發現進一步支持了(le)資本市場(chǎng)是信息有效市場(chǎng)的(de)假說。在當時(shí)信息經濟學崛起的(de)大(dà)背景下(xià),Ball-Brown 的(de)研究讓會計轉變成爲一門研究财務信息是如何影(yǐng)響資本市場(chǎng)的(de)學問。
有效市場(chǎng)假說的(de)重點是資産價格的(de)動态變化(huà),那麽資産價格在截面上(cross-section)的(de)差異如何理(lǐ)解呢(ne)?上個(gè)世紀六十年代,諾獎得(de)主 William Sharpe 和(hé)另外幾位學者先後獨立創立的(de)資本資産定價模型(CAPM)爲其奠定了(le)理(lǐ)論基礎。CAPM 模型把資産(超額)預期收益率表示爲市場(chǎng)風險溢價因子的(de)線性函數,因爲隻有一個(gè)因子,所以這(zhè)個(gè)模型也(yě)被稱爲單因子模型。進入到 70 年代後,諾獎得(de)主 Robert Merton 以及另外一位(川總帶感情色彩地插一句:理(lǐ)應也(yě)成爲諾獎得(de)主的(de))金融研究大(dà)家 Stephen Ross 分(fēn)别從均衡和(hé)套利這(zhè)兩個(gè)核心思想出發,創立了(le)時(shí)跨資本資産定價模型(ICAPM)和(hé)套利定價理(lǐ)論(APT),這(zhè)兩個(gè)模型都把資産預期收益率表示爲多(duō)個(gè)因子的(de)函數,因此也(yě)被稱爲多(duō)因子模型。
這(zhè)些因子模型在數據中的(de)表現如何呢(ne)?在這(zhè)方面,我們不得(de)不再次談及 Fama 的(de)貢獻。1973 年,Fama 和(hé) James MacBeth 通(tōng)過應用(yòng) CRSP 數據,在實證分(fēn)析中得(de)到了(le)支持 CAPM 模型的(de)證據。與此同時(shí),這(zhè)篇論文創立了(le)以他(tā)們名字首字母命名的(de) Fama-MacBeth 回歸,後來(lái)也(yě)成爲資産定價實證分(fēn)析的(de)經典方法。
上個(gè)世紀 70 年代,金融學界建立起以有效市場(chǎng)假說和(hé)資本資産定價模型這(zhè)兩個(gè)支柱爲核心的(de)标準範式,并且認爲這(zhè)個(gè)範式是牢不可(kě)破的(de)。但是很快(kuài),一些學者開始使用(yòng)更新的(de)數據以及更新的(de)統計方法來(lái)講述不同的(de)故事:他(tā)們發現了(le)背離前述經典範式的(de)異常現象,簡稱異象(anomalies)。
異象研究首先挑戰了(le) CAPM 模型,其中的(de)代表性研究是來(lái)自加拿大(dà)馬克馬斯特大(dà)學 Sanjoy Basu 和(hé)美(měi)國西北(běi)大(dà)學的(de) Rolf Banz。Basu (1977) 發現了(le)市盈率這(zhè)個(gè)指标和(hé)股票(piào)平均收益率存在著(zhe) CAPM 模型不能解釋的(de)負向關系,後來(lái)學者也(yě)發現了(le)其他(tā)一些市場(chǎng)價格和(hé)會計指标的(de)比率也(yě)有類似效應,它們被統稱爲價值效應;而 Ban (1981) 則發現以股票(piào)市值度量的(de)公司規模要比股票(piào)貝塔更能解釋收益率的(de)截面差異,由此産生了(le)“規模效應”。
另一方面,就資産價格的(de)時(shí)間序列來(lái)說,其随機遊走的(de)性質也(yě)受到挑戰,這(zhè)方面研究的(de)代表人(rén)物(wù)是華人(rén)學者、現任麻省理(lǐ)工學院教授羅聞全(Andrew Lo),他(tā)和(hé)當時(shí)在沃頓商學院的(de)合作者 Craig MacKinlay 合作發表了(le)一系列的(de)文章(zhāng),用(yòng)全新的(de)統計方法研究股票(piào)價格的(de)時(shí)間序列,所有這(zhè)些研究後來(lái)彙集成冊,書(shū)名直指他(tā)們的(de)核心結論:《非随機遊走降臨華爾街(jiē)》。
從上個(gè)世紀 80 年代開始,整個(gè)資本市場(chǎng)的(de)實證研究卷入到經典範式和(hé)異象之間的(de)争論之中,就此産生了(le)三大(dà)不同的(de)學術流派。第一大(dà)流派可(kě)以看作是經典範式的(de)“忠誠者”,這(zhè)一流派的(de)基本思想是市場(chǎng)是完美(měi)的(de),市場(chǎng)中的(de)參與者也(yě)是完美(měi)的(de),我們在數據中發現的(de)各種“異象”隻是各種數據挖掘的(de)結果,因此存在著(zhe)各種偏差,比如幸存者偏差、選擇偏差等。第二大(dà)流派是經典範式的(de)“革新者”,這(zhè)一派的(de)學者堅守新古典經濟學的(de)基本原則,認爲市場(chǎng)參與者是理(lǐ)性的(de),市場(chǎng)以及我們分(fēn)析市場(chǎng)的(de)方法中存在著(zhe)問題,比如實證分(fēn)析中沒有考慮到各種交易成本導緻的(de)市場(chǎng)摩擦,以及 Roll 批評(Roll's Critique)等。最後一派的(de)學者可(kě)以看作是經典範式的(de)“異教徒”,他(tā)們一方面認爲市場(chǎng)是不完美(měi)的(de),但同時(shí)更進一步,他(tā)們背棄經濟學傳統的(de)個(gè)人(rén)理(lǐ)性原則:借鑒心理(lǐ)學中發現的(de)各種心理(lǐ)偏誤,他(tā)們把資本市場(chǎng)的(de)異象和(hé)個(gè)人(rén)非理(lǐ)性行爲聯系起來(lái),由此産生了(le)行爲金融學(behavioral finance)。
這(zhè)場(chǎng)大(dà)争論涉及了(le)諸多(duō)金融頂尖學者,其中光(guāng)譜兩端的(de)代表人(rén)物(wù),經典範式的(de)支持者 Eugene Fama 和(hé)異教徒 Robert Shiller,以及廣義矩估計這(zhè)種資産價格實證分(fēn)析方法的(de)發明(míng)人(rén) Lars Hansen,一起因爲“在資産價格實證分(fēn)析中的(de)貢獻”而分(fēn)享了(le) 2013 年諾貝爾經濟學獎。另外一位行爲經濟學的(de)代表人(rén)物(wù),同樣來(lái)自芝加哥(gē)大(dà)學的(de)教授 Richard Thaler,也(yě)因爲包括行爲金融在内的(de)行爲經濟學貢獻,而獨享 2017 年諾貝爾經濟學獎。
作爲有效市場(chǎng)假說的(de)提出者和(hé)堅定支持者,Fama 和(hé)他(tā)後期研究的(de)主要合作者,來(lái)自達特茅斯學院的(de) Kenneth French,從 1992 年開始用(yòng)一系列的(de)文章(zhāng),提出了(le)基于數據驅動并且可(kě)以融入規模效應和(hé)價值效應的(de)三因子模型,用(yòng)以解釋當時(shí)市場(chǎng)中發現的(de)各種異象(Fama and French 1992, 1993)。需要指出的(de)是,Fama (1991) 在《有效資本市場(chǎng):第 II 集》中曾把多(duō)因子模型看作是一個(gè)“事後從數據中尋找能夠描述平均收益率截面變量的(de)許可(kě)證”(這(zhè)後來(lái)也(yě)被學界戲稱爲使得(de)挖因子變得(de)合理(lǐ)化(huà)的(de)“釣魚許可(kě)證”(fishing license))。
就此而言,Fama 看起來(lái)對(duì)使用(yòng)多(duō)因子模型來(lái)刻畫(huà)資本市場(chǎng)持謹慎保守的(de)态度;但是面對(duì)著(zhe)來(lái)自數據的(de)持續挑戰,他(tā)自己很快(kuài)修正了(le)一些立場(chǎng),轉而使用(yòng)多(duō)因子模型賦予的(de)“釣魚許可(kě)證”去尋找可(kě)以解釋各種截面異象的(de)因子以及因子模型了(le)。在之後的(de)多(duō)因子模型之争中,Fama and French (2015) 在三因子模型基礎上加入了(le)盈利因子和(hé)投資因子,從而把解釋收益率截面的(de)因子模型擴展到五因子模型。對(duì)于這(zhè)場(chǎng)從上個(gè)世紀 80 年代開始持續至今的(de)大(dà)辯論,感興趣的(de)讀者可(kě)以參閱瑞典皇家科學院撰寫的(de)諾獎科學背景以及三位諾獎得(de)主的(de)頒獎演說。
在這(zhè)場(chǎng)大(dà)辯論中,有一個(gè)另類數據特别有意義,這(zhè)就是行爲金融學者 Terrance Odean 使用(yòng)的(de)散戶投資者(retail investor)交易賬戶數據,後來(lái)這(zhè)個(gè)數據集也(yě)被稱爲 Odean 數據集。這(zhè)個(gè)數據集是由一個(gè)未署名的(de)全美(měi)證券經紀商提供的(de),通(tōng)過這(zhè)個(gè)數據集,Odean 和(hé)合作者進行了(le)一系列微觀層面上散戶投資者實際交易行爲的(de)研究,這(zhè)些研究在總體意義上表明(míng),散戶投資者會持有相對(duì)集中的(de)投資組合,他(tā)們交易很活躍,投機性很強,而這(zhè)些行爲會讓他(tā)們的(de)投資績效不佳。另外,作爲一個(gè)整體,散戶投資者會表現出系統性而非随機性的(de)交易行爲。有關這(zhè)些研究的(de)綜述,讀者可(kě)以參考 Odean 和(hé) Brad Barber 于 2013 年在《金融經濟學手冊第二卷》上發表的(de)綜述文章(zhāng)。
進入到新世紀第二個(gè)十年,大(dà)數據、人(rén)工智能和(hé)機器學習(xí)、雲計算(suàn)和(hé)量子計算(suàn)等新興科技帶來(lái)的(de)數據、算(suàn)法和(hé)算(suàn)力全方位的(de)突破,極大(dà)地影(yǐng)響和(hé)改變了(le)我們人(rén)類社會,當然也(yě)包括金融市場(chǎng)的(de)研究與實踐。面對(duì)技術突破,金融、财務和(hé)會計學的(de)學術研究,不斷發現新的(de)針對(duì)股票(piào)收益率的(de)預測變量。來(lái)自芝加哥(gē)大(dà)學的(de) John Cochrane,在其 2011 年美(měi)國金融學會主席演講中,把不斷增加的(de)收益率截面預測變量,稱爲“因子動物(wù)園”(factor zoo)。
金融大(dà)數據産生的(de)“因子動物(wù)園”給資産定價的(de)實證研究帶來(lái)了(le)極大(dà)的(de)挑戰。首先,随著(zhe)因子動物(wù)園的(de)擴充,一個(gè)顯而易見的(de)統計挑戰是,在回歸方程中右側變量的(de)個(gè)數在快(kuài)速接近觀測值(以及觀測時(shí)段)的(de)個(gè)數,這(zhè)樣傳統的(de)低維統計分(fēn)析便難以适用(yòng),我們需要使用(yòng)更爲複雜(zá)的(de)高(gāo)維統計分(fēn)析方法(high/large dimensional statistics)。
其次,針對(duì)相同或者相近的(de)數據集進行多(duō)個(gè)不同因子的(de)檢驗,會帶來(lái)虛假的(de)統計顯著性,進而造成 p-值操縱(p-hacking)和(hé)多(duō)重假設檢驗(multiple hypothesis testing)問題。在這(zhè)方面,杜克大(dà)學 Campbell Havery 教授在 2017 年美(měi)國金融學會的(de)主席演講上做(zuò)了(le)有力的(de)說明(míng),同時(shí)他(tā)還(hái)和(hé)華人(rén)學者劉岩撰寫了(le)一系列文章(zhāng)探討(tǎo)這(zhè)類資産定價實證研究中的(de)問題。
第三,學者們實證研究中發現的(de)預測變量和(hé)收益率之間的(de)關系都是在事後從已觀測數據中得(de)到的(de),因此存在著(zhe)前瞻性偏差(look-ahead bias):站在事前,這(zhè)些預測變量的(de)預測效力以及它們和(hé)目标變量之間的(de)關系并不必然是已知的(de),對(duì)于現實世界的(de)投資者而言更是如此,這(zhè)正是倫敦經濟學院的(de) Ian Martin 和(hé)芝加哥(gē)大(dà)學的(de) Stefan Nagel 兩位學者提出的(de)投資者學習(xí)(investor learning)問題(Martin and Nagel 2022)。
大(dà)數據時(shí)代産生了(le)衆多(duō)可(kě)能存在的(de)預測指标,在它們形成的(de)高(gāo)維環境中,多(duō)重假設檢驗和(hé)投資者學習(xí)的(de)挑戰會變得(de)更加嚴重。其核心問題是:資産定價的(de)異象研究可(kě)能存在著(zhe)“複制危機”(replication crises)。一方面,當使用(yòng)略微不同的(de)數據集或者數據分(fēn)析方法時(shí),異象是無法複制的(de),按照(zhào)三位在美(měi)華人(rén)金融學者侯恪惟、薛辰和(hé)張橹(Hou, Xue and Zhang 2020) 的(de)說法:“大(dà)多(duō)數異象按照(zhào)當前可(kě)接受的(de)标準而言無法成立”。另一方面,這(zhè)些異象在真正的(de)樣本外可(kě)能是不存在的(de),用(yòng) Harvey, Liu and Zhu (2016) 的(de)說法:“大(dà)多(duō)數金融經濟學中聲稱的(de)研究發現很可(kě)能是錯誤的(de)”。
除了(le)上面這(zhè)些問題以外,來(lái)自法國和(hé)瑞士的(de)三位金融學者 Dessaint, Foucault and Frésard (2022) 提出了(le)另類數據存在著(zhe)時(shí)長(cháng)效應(horizon effect)問題。例如各種預測公司盈餘這(zhè)類财務指标的(de)另類數據,考慮到這(zhè)些另類數據主要涉及短期信息,所以 DFF 把它們稱爲短期導向數據(short-term oriented data)。由此而來(lái)産生的(de)題是:這(zhè)類數據可(kě)以改進财務預測嗎?通(tōng)過使用(yòng)賣方分(fēn)析師的(de)預測數據,DFF 發現随著(zhe)另類數據逐漸進入投資世界,分(fēn)析師們針對(duì)短期(短于 1 年)财務指标的(de)預測質量提升了(le),但是針對(duì)長(cháng)期(長(cháng)于 1 年)财務指标的(de)預測質量則是下(xià)降了(le),并且兩者産生的(de)淨效應是模糊的(de)。因爲資産價格是短期和(hé)長(cháng)期現金流折現的(de)總和(hé),這(zhè)樣另類數據的(de)價值也(yě)就存疑了(le)。
在面對(duì)由另類數據帶來(lái)的(de)高(gāo)維環境中,應該如何應對(duì)上述學術研究的(de)挑戰呢(ne)?學術界當前給出的(de)答(dá)案是使用(yòng)各種機器學習(xí)模型加以應對(duì)。芝加哥(gē)大(dà)學的(de)華人(rén)學者顧詩颢、修大(dà)成以耶魯大(dà)學的(de) Bryan Kelly 在他(tā)們 2020 年刊發的(de)經典文章(zhāng)中,指出資産定價的(de)機器學習(xí)方法可(kě)以用(yòng)來(lái)描述:“(a) 用(yòng)于統計預測的(de)各種高(gāo)維模型集合,(b) 用(yòng)于模型選擇和(hé)緩解過拟合的(de)正則化(huà)方法,以及 (c) 在大(dà)量可(kě)能存在的(de)模型設定中有效的(de)搜索算(suàn)法”。近幾年來(lái),應用(yòng)正則化(huà)、決策樹、集成方法、深度學習(xí)和(hé)各種不同主成分(fēn)分(fēn)析的(de)機器學習(xí)研究層出不窮。
此外,耶魯大(dà)學的(de) Stefano Giglio 以及 Kelly 和(hé)修大(dà)成在 2022 年發表了(le)一篇綜述論文,其中總結了(le)當前資産定價中機器學習(xí)方法的(de)研究現狀,同時(shí)指出了(le)未來(lái)的(de)主要研究方向。不過,上述機器學習(xí)的(de)方法并不能很好地解決前面提及的(de)多(duō)重假設檢驗和(hé)投資者學習(xí)。
考慮到這(zhè)一點,Nagel 教授在近期《高(gāo)維世界評估市場(chǎng)有效性》的(de)報告中提出使用(yòng)實證貝葉斯方法(empirical Bayes method)來(lái)應對(duì)這(zhè)兩個(gè)難題。該方法通(tōng)過金融數據來(lái)形成相關的(de)先驗信念,進而分(fēn)析資産定價的(de)可(kě)預測性問題,比如,Chinco, Neuhierl and Weber (2021) 根據已觀測數據來(lái)确定某個(gè)預測指标是異象的(de)先驗概率分(fēn)布,他(tā)們把這(zhè)個(gè)概率稱爲異象基率(anomaly base rate)。此外,實證貝葉斯方法還(hái)可(kě)以用(yòng)來(lái)處理(lǐ) Giannone, Lenza and Primiceri (2021) 提出的(de)稀疏性幻覺(illusion of sparsity)的(de)問題。所謂稀疏性,是指在當前主流的(de)資産定價多(duō)因子模型中,通(tōng)常隻存在少數幾個(gè)定價因子。但是在高(gāo)維環境下(xià),稀疏性假設就不合理(lǐ)了(le),Bryzgalova, Huang and Julliard (2023) 采用(yòng)貝葉斯方法支持了(le)容許數十個(gè)因子的(de)模型。最後,Jensen, Kelly and Pedersen (2022) 在最近一篇引發學界熱(rè)議(yì)的(de)論文中,通(tōng)過貝葉斯方法否定了(le)“複制危機”的(de)存在。從實際應用(yòng)的(de)角度來(lái)看,考慮到另類數據當下(xià)和(hé)将來(lái)帶來(lái)的(de)大(dà)量潛在的(de)預測指标,貝葉斯統計方法在高(gāo)維環境的(de)資産定價分(fēn)析中會更有裨益。
從投資實務的(de)角度來(lái)看,賺取風險調整後的(de)超額收益是第一要務,因此構造可(kě)以獲利的(de)投資組合是最終目的(de)。在包括回歸、決策樹以及神經網絡這(zhè)些主流的(de)有監督學習(xí)方法中,我們首先要估計收益率截面。在這(zhè)方面,或許更爲直接的(de)方法是使用(yòng)強化(huà)學習(xí)(reinforcement learning)這(zhè)種具有無監督特點的(de)學習(xí)機制,它可(kě)以處理(lǐ)投資決策和(hé)市場(chǎng)之間的(de)交互關系,從而在不需要考慮資産定價的(de)情況下(xià)給投資組合進行建模。
此外(本段爲川總所加),伴随著(zhe)協變量高(gāo)維數問題的(de)另一思潮是“越複雜(zá)越好”這(zhè)一聽(tīng)上去有些颠覆的(de)觀點。2019 年,Belkin, et al. (2019) 發現了(le)機器學習(xí)中樣本外誤差的(de)“double descent”現象,引發了(le)機器學習(xí)領域和(hé)理(lǐ)論統計領域的(de)廣泛討(tǎo)論。該文指出當變量個(gè)數 > 樣本個(gè)數時(shí),樣本外總誤差并沒有“爆炸”,而是随著(zhe)複雜(zá)度的(de)提升單調下(xià)降。這(zhè)背後的(de)直覺解釋是,模型越複雜(zá),越是對(duì)真實世界的(de)更優近似,而這(zhè)種近似帶來(lái)的(de)好處在特定的(de)情況下(xià)可(kě)以蓋過因 over-parameterization 造成的(de)統計成本。在資産定價領域,Bryan Kelly 和(hé)他(tā)的(de)合作者一起寫了(le)一系列“複雜(zá)度美(měi)德”的(de)論文(例如 Kelly, Malamud and Zhou 2022),從不同角度探討(tǎo)了(le)探索提升複雜(zá)度對(duì)樣本外投資機會帶來(lái)的(de)提升。當然,即便我們認同了(le)“越複雜(zá)越好”,也(yě)依然要回答(dá)更重要的(de)問題,即如何估計參數,如何正則化(huà),如何利用(yòng)層出不窮的(de)新數據來(lái)形成關于預期收益率更好的(de)預測(即高(gāo)維問題求解)。在這(zhè)方面,通(tōng)過貝葉斯框架将經濟學推理(lǐ)注入機器學習(xí)算(suàn)法是一條充滿前景的(de)研究路徑(Nagel 2021)。
上面這(zhè)些從象牙塔産生的(de)由數據驅動的(de)投資思想,無論是從随機遊走到有效市場(chǎng)假說,從異象到行爲金融,從三因子模型到因子動物(wù)園,從回歸分(fēn)析到機器學習(xí),都深刻地影(yǐng)響和(hé)改變了(le)人(rén)們對(duì)金融市場(chǎng)運行機制以及收益和(hé)風險之間權衡的(de)理(lǐ)解。這(zhè)些投資思想,催生了(le)指數基金、市場(chǎng)中性、Smart Beta、因子投資、基本面量化(huà)等投資理(lǐ)念,讓金融市場(chǎng)成爲社會大(dà)衆關注的(de)焦點,讓金融研究成爲社會科學中的(de)顯學。
同樣地,我們也(yě)應該期待今天的(de)另類數據,能夠像今天的(de)“數據”在過往曆史中那樣,發現前所未見的(de)新規律,從而幫助我們在實務中形成新的(de)投資理(lǐ)念,同時(shí)做(zuò)出更好的(de)投資決策。
2
溫故是爲了(le)知新。
回顧如今的(de)“老數據”以及在曆史長(cháng)河(hé)中爲了(le)應用(yòng)它們而發展出來(lái)的(de)各種投資方法論,是爲了(le)在未來(lái)更好地利用(yòng)今天的(de)“新數據”。
當前,投資進入了(le)一個(gè)更加高(gāo)度不确定性的(de)時(shí)代。在這(zhè)個(gè)時(shí)代,隻有擁抱新數據,并在這(zhè)個(gè)過程中通(tōng)過創新方法用(yòng)好時(shí)下(xià)另類但在将來(lái)也(yě)注定普及的(de)數據,才能在細微之處把握金融市場(chǎng)跳動的(de)脈搏,才能在青萍之末感受風的(de)力度。
相信看到這(zhè)裏,數據的(de)重要性對(duì)于你已經不言而喻。而如果你也(yě)和(hé)我一樣期待開啓一段另類數據之旅,那麽請讓我回歸本文的(de)正題:《另類數據:理(lǐ)論與實踐》以及《另類數據:投資新動力》。這(zhè)兩本書(shū)的(de)出版,填補了(le)中文文獻在投資另類數據方面的(de)空白(官宣在此)。
《另類數據:理(lǐ)論與實踐》共有 8 章(zhāng),是一個(gè)統一的(de)框架,體系化(huà)地介紹了(le)另類數據的(de)概念、分(fēn)類、挑戰和(hé)風險、應用(yòng)流程和(hé)價值等方面的(de)内容,并對(duì)不同類型的(de)另類數據展開了(le)詳細的(de)說明(míng)。
《另類數據:投資新動力》分(fēn)爲 5 章(zhāng),更偏重應用(yòng),全方位地介紹了(le)另類數據在金融市場(chǎng)中的(de)應用(yòng),無論是文本數據、消費相關數據、傳感器數據、ESG 數據、投資者關注數據、商業洞察數據、衛星圖像數據、位置數據等;無論是股票(piào)量化(huà)投資和(hé)主觀投資,利率和(hé)彙率投資,又或者是大(dà)宗商品投資中的(de)應用(yòng),應有盡有。
在這(zhè)兩本書(shū)出版之前,我曾有幸閱讀過初稿。它們給我的(de)感受(如果隻用(yòng)兩個(gè)字總結)是客觀,如果再加兩個(gè)字,那麽是客觀和(hé)全面。
先說客觀。毫無疑問,無論對(duì)學界還(hái)是業界,另類數據是如今投資界的(de)寵兒(ér)和(hé)熱(rè)點(比如,你如果沒點獨門數據,想在 top 3 發實證研究幾乎沒戲了(le)),但這(zhè)兩本書(shū)并沒有所謂的(de)“蹭熱(rè)點”、不負責任地鼓吹另類數據的(de)好處,而是中立而系統的(de)呈現另類數據的(de)機會和(hé)挑戰,這(zhè)和(hé)我在《另類數據的(de)前景與陷阱》中所傳達出的(de)價值觀不謀而合。
再說全面。當人(rén)們說起另類數據的(de)時(shí)候,可(kě)能本能的(de)反應是兩眼放光(guāng),馬上會問它能不能産生風險因子無法解釋的(de) α。然而,這(zhè)種想法僅僅局限于另類數據産業鏈末端的(de)應用(yòng)層面。對(duì)于另類數據這(zhè)個(gè)大(dà)課題來(lái)說,數據是如何産生的(de)、質量和(hé)時(shí)效性如何,使用(yòng)時(shí)是否有合規風險,如何評估其成本價值、市場(chǎng)價值、經濟價值,其可(kě)預測性是短期的(de)還(hái)是長(cháng)期的(de),如何從基礎設施和(hé)人(rén)才儲備層面建設另類數據團隊,如何讓另類數據有機地融入到整個(gè)投研和(hé)交易過程(從而形成運營阿爾法)等都是同樣甚至更加重要的(de)問題。對(duì)于這(zhè)些問題,這(zhè)兩本書(shū)給出了(le)詳盡的(de)說明(míng)。
正是因爲“客觀和(hé)全面”這(zhè)兩個(gè)我個(gè)人(rén)非常看重的(de)特色(相信公衆号的(de)小夥伴認可(kě)這(zhè)個(gè)觀點),所以我願意毫無保留地把它推薦給感興趣的(de)小夥伴。希望它們能祝你在使用(yòng)另類數據的(de)道路上愈行愈遠(yuǎn),乘風破浪。
另類數據這(zhè)個(gè)名詞出現的(de)曆史并不很長(cháng),但是它背後蘊含的(de)核心思想卻并不新穎,而是自古有之:我們需要在不斷出現的(de)另類數據中用(yòng)适應時(shí)代的(de)方法挖掘出新的(de)投資見解,在不斷演化(huà)的(de)金融市場(chǎng)中能夠長(cháng)時(shí)間地獲取超額收益,從而在投資管理(lǐ)的(de)激烈競争中生存下(xià)來(lái)。
參考文獻
Ball, R. and P. Brown (1968). An empirical evaluation of accounting income numbers. Journal of Accounting Research 6, 159 - 178.
Banz, R. (1981). The relationship between return and market value of common stocks. Journal of Financial Economics 9, 3 - 18.
Barber, B. and T. Odean (2013). The behavior of individual investors. In G. Constantinides, M. Harris, and R. Stulz (eds.) Handbook of the Economics of Finance 2. Elsevier BV.
Basu, S. (1977). Investment performance of common stocks in relation to their price-earnings ratios: A test of the efficient market hypothesis. Journal of Finance 32, 663 - 682.
Belkin, M., D. Hsu, S. Ma, and S. Mandal (2019). Reconciling modern machine-learning practice and the classical bias-variance trade-off. PNAS 116, 15849 - 15854.
Bryzgalova, S., J. Huang, and C. Julliard (2023). Bayesian solutions for the factor zoo: We just ran two quadrillion models. Journal of Finance 78, 487 - 557.
Chinco, A., A. Neuhierl, and M. Weber (2021). Estimating the anomaly base rate. Journal of Financial Economics 140, 101 - 126.
Cochrane, J. H. (2011). Presidential address: Discount rates. Journal of Finance 66, 1047 - 1108.
Cootner, P. (1964). The Random Character of Stock Prices. MIT Press.
Cowles, A. (1933). Can stock market forecasters forecast? Econometrica 1, 309 - 324。
Cowles, A. (1944). Stock market forecasting. Econometrica 12, 206 - 214.
Dessaint, O., T. Foucault, and L. Frésard (2022). Does alternative data improve forecasting? The horizon effect. Swiss Finance Institute Research Paper Series N. 20-106.
Fama, E. F. (1965). The behavior of stock market prices. Journal of Business, 34 - 105.
Fama, E. F. (1970). Efficient capital markets: A review of theory and empirical work. Journal of Finance 25, 383 - 417.
Fama, E. F. (1991). Efficient capital markets: II. Journal of Finance 46, 1575 - 1617.
Fama, E. F. and K. R. French (1992). The cross-section of expected stock returns. Journal of Finance 47, 427 - 465.
Fama, E. F. and K. R. French (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics 33, 3 - 56.
Fama, E. F. and K. R. French (2015). A five-factor asset pricing model. Journal of Financial Economics 116, 1 - 22.
Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium. Journal of Political Economy 81, 607 - 636.
Giannone, D., M. Lenza, and G. Primiceri (2021). Economic predictions with big data: The illusion of sparsity. Econometrica 89, 2409 - 2437.
Giglio, S., B. Kelly, and D. Xiu (2022). Factor models, machine learning and asset pricing. Annual Review of Financial Economics 14, 337 - 368.
Gu, S., B. Kelly, and D. Xiu (2020). Empirical asset pricing via machine learning. Review of Financial Studies 33, 2223 - 2273.
Havery, C. R. (2017). Presidential address: The scientific outlook in financial economics. Journal of Finance 72, 1399 - 1440.
Harvey, C. R., Y. Liu, and H. Zhu (2016). ... and the cross-section of expected returns. Review of Financial Studies 29, 5 - 68.
Hou, K., C. Xue, and L. Zhang (2020). Replicating anomalies. Review of Financial Studies 33, 2019 - 2133.
Jensen, T., B. Kelly, and L. Pedersen (2022). Is there a replication crisis in finance? Working paper.
Kelly, B., S. Malamud, and K. Zhou (2022). The virtue of complexity in return prediction. Working paper.
Kendall, M. (1953). The analysis of economic time-series. Part I: Prices. Journal of the Royal Statistical Society 116, 11 - 34.
Lo, A. W. and A. C. MacKinlay (1999). A Non-Random Walk down Wall Street. Princeton University Press.
Martin, I. and S. Nagel (2022). Market efficiency in the age of big data. Journal of Financial Economics 145, 154 - 177.
Nagel, S. (2021). Machine Learning in Asset Pricing. Princeton University Press.
Nagel, S. (2022). Evaluating market efficiency in a high-dimensional world. Speech on Hong Kong Conference for Fintech, AI and Big Data Business.
免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。