Financial Machine Learning
發布時(shí)間:2023-07-20 | 來(lái)源: 川總寫量化(huà)
作者:石川
摘要:跟著(zhe)兩位大(dà)佬一起洞悉金融機器學習(xí)的(de)最新學術前沿。
近日,Bryan Kelly 和(hé)修大(dà)成兩位教授的(de)最新力作 Financial Machine Learning 上線 SSRN。
作爲機器學習(xí)和(hé)實證資産定價交叉領域中你不可(kě)能忽視的(de)兩個(gè)名字,他(tā)們二位對(duì)金融市場(chǎng)中最新的(de)機器學習(xí)文獻進行了(le)梳理(lǐ)并提供了(le)該領域研究中的(de)經典範例。該文近 150 頁,旨在幫助對(duì)機器學習(xí)工具感興趣的(de)金融經濟學家、統計學家以及投資從業者了(le)解最新的(de)研究成果,其目錄如下(xià)(光(guāng)看目錄就足夠讓人(rén)躍躍欲試)。
這(zhè)篇文章(zhāng)也(yě)讓我想起了(le)之前和(hé)王熙老師翻譯的(de) Nagel 的(de) Machine Learning in Asset Pricing。毫無疑問,這(zhè)兩篇力作的(de)風格(專業性、嚴謹性、時(shí)效性)都是我非常推崇的(de),也(yě)均是這(zhè)個(gè)交叉領域非常重要的(de)學習(xí)資料。爲此,今天就來(lái)全文翻譯 Financial Machine Learning 的(de)第一章(zhāng)。感興趣的(de)小夥伴請自行下(xià)載和(hé)閱讀原著的(de)其他(tā)章(zhāng)節。特别感謝劉洋溢和(hé)王熙兩位老師提出的(de)寶貴修改建議(yì)。
最後,本翻譯僅供學習(xí)交流使用(yòng),禁止一切商業行爲,未經授權,禁止轉載。
1.1 價格即預測
現代金融市場(chǎng)分(fēn)析聚焦于如式 (1.1) 所示的(de)關于價格的(de)定義,它源自投資者的(de)一般(跨期)優化(huà)條件:
該公式的(de)含義是,資産價格
在實際中,通(tōng)過預期收益率或者“折現率”來(lái)分(fēn)析價格十分(fēn)常見。利用(yòng)它們和(hé)價格的(de)等價關系,我們可(kě)以通(tōng)過
其中
更一般地說,通(tōng)過對(duì)數據同質化(huà)處理(lǐ)(譯者注:使其具有相同或相似性質)可(kě)使數據具有易于處理(lǐ)的(de)變化(huà)規律和(hé)縮放屬性,因此通(tōng)過收益率來(lái)研究市場(chǎng)現象有助于降低研究人(rén)員(yuán)的(de)建模難度。此外,收益率本身也(yě)是預測,且關于它們的(de)解釋十分(fēn)清晰且具有很強的(de)實用(yòng)性。
1.2 龐大(dà)的(de)信息集
金融研究中的(de)兩個(gè)特性使它自然而然成爲了(le)應用(yòng)機器學習(xí)方法的(de)沃土:(1)龐大(dà)的(de)條件信息集和(hé)(2)模糊的(de)函數關系(譯者注:這(zhè)裏指的(de)是信息和(hé)預期收益率之間的(de)潛在關系是未知且複雜(zá)的(de))。由式 (1.1) 可(kě)知,資産價格的(de)研究與信息密切相關。金融經濟學研究的(de)核心問題包括“市場(chǎng)參與者擁有什(shén)麽信息以及他(tā)們如何使用(yòng)它?”價格中所反映出的(de)預測由和(hé)未來(lái)資産償付(
金融市場(chǎng)數據的(de)面闆屬性使得(de)和(hé)價格有關的(de)信息範疇變得(de)更加龐大(dà)。對(duì)于給定資産來(lái)說,其價格在時(shí)序上的(de)變化(huà)極具研究價值,這(zhè)對(duì)應著(zhe)面闆數據的(de)時(shí)序維度。另一方面,在任何一個(gè)時(shí)點,資産的(de)價格在截面上的(de)差異同樣不容忽視,這(zhè)對(duì)應著(zhe)面闆數據的(de)截面維度。市場(chǎng)環境随時(shí)間的(de)變化(huà)将會以相互關聯的(de)方式影(yǐng)響諸多(duō)資産。例如,大(dà)多(duō)數資産在高(gāo)風險和(hé)低風險,或者不同的(de)政策環境下(xià)的(de)表現均會出現差異。随著(zhe)宏觀經濟條件的(de)變化(huà),資産價格由這(zhè)些共同影(yǐng)響驅動而發生同步調整。另一方面,不同的(de)資産或者不同組的(de)資産會在截面上出現不同的(de)行爲。因此,條件信息不僅僅具有時(shí)序性質,而且還(hái)具備資産層面的(de)屬性。一個(gè)好的(de)資産定價模型應能夠同時(shí)刻畫(huà)導緻資産價格共同變化(huà)的(de)共性因素以及驅動資産價格截面差異的(de)資産自身因素(其本身可(kě)能是靜态或動态的(de))。對(duì)此,Gu, Kelly and Xiu (2020) 指出:
金融行業已經積累出了(le)一份令人(rén)震驚的(de)預測指标列表,其中的(de)每個(gè)指标都被學者們證明(míng)能夠預測收益率。文獻中報告的(de)資産層面的(de)預測特征有數百個(gè)之多(duō),而預測市場(chǎng)整體的(de)宏觀經濟指标也(yě)有數十個(gè)之多(duō)。
此外,考慮到每項金融經濟學研究往往隻研究一個(gè)或少數幾個(gè)變量,因此我們可(kě)以猜想還(hái)有廣泛的(de)領域未被觸及。例如,直到最近,新聞文本的(de)信息内容才被用(yòng)來(lái)作爲經驗模型 (1.1) 的(de)輸入,因此可(kě)以預期該領域以及其他(tā)前沿領域還(hái)有很大(dà)的(de)擴展空間。
1.3 模糊的(de)函數關系
如果資産價格反映對(duì)未來(lái)償付的(de)預期,那麽預測模型就是研究價格的(de)統計工具。金融市場(chǎng)研究中的(de)傳統計量經濟學方法(例如 Hansen and Singleton 1982)首先根據理(lǐ)論經濟模型爲收益率預測模型設定了(le)一個(gè)函數形式,然後再估計其參數,以理(lǐ)解在所選擇的(de)模型約束内,潛在信息源與所觀察到的(de)市場(chǎng)價格之間的(de)關聯。然而,我們應該以文獻中提出的(de)哪個(gè)經濟模型爲出發點呢(ne)?
式 (1.1) 中的(de)一階條件或“歐拉方程”的(de)表述足夠寬泛,使之能夠包含各種結構性經濟假設。這(zhè)種通(tōng)用(yòng)性是有理(lǐ)由的(de),因爲人(rén)們尚未就哪種具體的(de)結構化(huà)公式更好達成共識。早期的(de)基于消費的(de)定價模型(譯者注:宏觀金融模型)在大(dà)多(duō)數評價标準下(xià)均無法匹配市場(chǎng)價格數據(例如 Mehra and Prescott 1985)。如果将衡量成功的(de)标準降的(de)足夠低,那麽現代結構模型在匹配價格數據方面則表現的(de)要稍好一些(例如 Chen, Dou and Kogan forthcoming),不過這(zhè)些模型描述的(de)現象通(tōng)常僅限于少數資産,且評估的(de)結果僅僅是基于樣本内數據。
鑒于結構模型難以貼合實證數據,過去二十年的(de)大(dà)多(duō)數實證研究已選擇摒棄結構化(huà)假設,轉而轉向更爲靈活的(de)“簡化(huà)形式”(reduced-form model)或“無套利”框架(譯者注:在經濟學中,reduced-form model 是指模型的(de)輸出隻是輸入變量的(de)函數,而不直接假設底層經濟行爲邏輯。換句話(huà)說,reduced-form model 尋找輸入變量和(hé)輸出變量之間的(de)統計關系。這(zhè)與結構模型相反,結構模型試圖詳細地建立和(hé)估計底層的(de)經濟行爲和(hé)機制,甚至結構模型能夠實現諸如反事實分(fēn)析一類的(de)高(gāo)階因果推斷分(fēn)析)。雖然關于市場(chǎng)的(de)實證研究通(tōng)常避免強加具體的(de)經濟結構,但它們通(tōng)常會施加統計結構(例如,以低維多(duō)因子模型或其他(tā)參數化(huà)假設的(de)形式)。然而,即便在簡化(huà)形式的(de)模型中也(yě)有很多(duō)統計結構可(kě)供選擇,因而探索靈活模型是值得(de)的(de),因爲後者可(kě)以容納許多(duō)不同的(de)函數形式,并且可(kě)以應對(duì)不同程度的(de)非線性關系以及變量之間的(de)交互作用(yòng)。
這(zhè)就是諸如核方法、懲罰似然估計量、決策樹和(hé)神經網絡等機器學習(xí)工具的(de)應用(yòng)場(chǎng)景。由多(duō)種非參數估計量和(hé)大(dà)型參數模型組成,機器學習(xí)方法正是爲了(le)逼近未知的(de)數據生成函數而生。此外,機器學習(xí)可(kě)以将許多(duō)數據源整合到一個(gè)模型中。由 1.2 節的(de)討(tǎo)論可(kě)知,爲了(le)更好地對(duì)價格或者預期收益率建模,我們需要豐富的(de)條件信息集
我們使用(yòng)的(de)條件信息集越豐富,模型就會越貼近現實。同樣的(de)邏輯适用(yòng)于函數形式問題。市場(chǎng)參與者不僅将豐富的(de)信息納入預測,而且他(tā)們利用(yòng)推理(lǐ)和(hé)直覺,使用(yòng)非常複雜(zá)的(de)方式來(lái)進行預測。我們必須認識到,作爲研究者,我們無從知道投資者使用(yòng)信息的(de)具體方式,因此也(yě)就無法在參數統計模型中詳盡地(當然更不可(kě)能簡潔地)指定該方式。正如 Cochrane (2005) 提醒我們在考慮條件信息時(shí)要謹慎一樣,我們在考慮函數形式時(shí)也(yě)必須同樣謹慎。
1.4 機器學習(xí) vs 計量經濟學
到底什(shén)麽是機器學習(xí),它與傳統的(de)計量經濟學有何不同?Gu, Kelly and Xiu (2020) 強調,機器學習(xí)的(de)精确定義尚無定論,且其定義有時(shí)會因使用(yòng)者的(de)市場(chǎng)營銷目的(de)而扭曲。我們遵循 Gu, Kelly and Xiu (2020) 的(de)定義,将機器學習(xí)描述爲以下(xià)三方面的(de)總和(hé):(i)用(yòng)于統計預測的(de)多(duō)樣化(huà)高(gāo)維模型的(de)集合,(ii)用(yòng)于模型選擇和(hé)降低過拟合的(de)“正則化(huà)”方法,以及(iii)用(yòng)于搜索大(dà)量潛在模型設定的(de)高(gāo)效算(suàn)法。
根據這(zhè)個(gè)定義,金融機器學習(xí)可(kě)被理(lǐ)解爲一套用(yòng)于估計統計模型并使用(yòng)該模型進行決策的(de)程序。因此,從本質上講,我們無需将機器學習(xí)與計量經濟學或統計學區(qū)分(fēn)開來(lái)。機器學習(xí)背後的(de)很多(duō)理(lǐ)念在過去幾十年裏已經在統計學的(de)大(dà)旗下(xià)生根發芽(Israel, Kelly and Moskowitz 2020)。
爲了(le)通(tōng)過數據來(lái)學習(xí),機器需要一個(gè)關于其學習(xí)任務的(de)函數化(huà)表達。研究者必須對(duì)此做(zuò)出選擇 —— 這(zhè)将決定我們将會從數據中得(de)到怎樣的(de)發現。前述關于機器學習(xí)定義的(de)第(i)部分(fēn)指出,機器學習(xí)對(duì)函數化(huà)表示幾乎沒有約束,它可(kě)以是高(gāo)度參數化(huà)且通(tōng)常是非線性的(de)。另一方面,小模型往往不夠靈活且過于簡化(huà),但其簡潔性有利于精确的(de)參數估計并很容易解釋。大(dà)型和(hé)複雜(zá)的(de)模型則要靈活得(de)多(duō),但也(yě)可(kě)能對(duì)樣本内的(de)噪聲更加敏感,并因爲對(duì)噪聲的(de)過拟合而削弱其在樣本外的(de)表現。當研究者認爲更準确地描述現實世界的(de)複雜(zá)現象所帶來(lái)的(de)好處超過過拟合的(de)成本時(shí),他(tā)們便會轉而使用(yòng)大(dà)模型。從直觀上講,當分(fēn)析師不确定其統計模型應采取哪種具體結構化(huà)假設時(shí),機器學習(xí)便提供了(le)進行統計分(fēn)析的(de)另一種途徑。從這(zhè)個(gè)意義上講,大(dà)部分(fēn)的(de)機器學習(xí)可(kě)以被視爲非參數(或半參數)化(huà)建模。其運行範式考慮了(le)各種可(kě)能的(de)模型設定,并通(tōng)過數據的(de)指引來(lái)确定哪個(gè)模型對(duì)于手頭待處理(lǐ)的(de)問題最爲有效。有人(rén)可(kě)能會問:分(fēn)析師何時(shí)知道什(shén)麽結構化(huà)假設适合他(tā)們的(de)統計分(fēn)析?答(dá)案當然是“永遠(yuǎn)不會”,而這(zhè)就是爲什(shén)麽機器學習(xí)在金融研究中大(dà)有可(kě)爲。正如 Breiman (2001) 所強調的(de),機器學習(xí)與傳統統計學研究目标的(de)最根本差異在于,前者在未知數據模型的(de)前提下(xià)最大(dà)化(huà)預測準确性,而後者則在假設數據模型已知的(de)前提下(xià)估計模型參數并進行統計檢驗。
定義的(de)第(ii)部分(fēn)強調,機器學習(xí)從“多(duō)樣化(huà)的(de)候選模型集合”中選擇一個(gè)最佳模型(或模型組合)。同樣的(de)想法以模型選擇(或與之相關的(de)模型平均)的(de)概念早已存在于計量經濟學方法中。二者的(de)不同之處在于,機器學習(xí)将模型選擇置于實證設計的(de)核心。尋找具有最優樣本外預測性能模型的(de)過程(通(tōng)常被稱爲模型“調優”)是機器學習(xí)方法的(de)重要特征。當然,從諸多(duō)模型中機械地選擇會發生樣本内過拟合,從而削弱樣本外的(de)表現。因此,機器學習(xí)的(de)研究過程往往伴随著(zhe)“正則化(huà)”,它是一個(gè)用(yòng)于約束模型大(dà)小以确保樣本外性能穩定性的(de)通(tōng)用(yòng)術語。正如 Gu, Kelly and Xiu (2020) 所說,“最優模型是一個(gè)‘恰到好處的(de)’模型。一方面,它足夠大(dà)因而能夠可(kě)靠地識别出數據中可(kě)能存在的(de)複雜(zá)預測關系,而另一方面它又不至于過于靈活以至于由過拟合主導,從而影(yǐng)響樣本外的(de)表現。”正則化(huà)方法傾向于産生較小的(de)模型;隻有當更豐富的(de)模型能夠真正提升樣本外預測準确性時(shí),它們才能夠脫穎而出。
機器學習(xí)定義中的(de)第(iii)個(gè)組成部分(fēn)也(yě)許是它與傳統統計學最明(míng)顯的(de)不同之處,但也(yě)可(kě)能是經濟學直覺最爲最欠缺的(de)部分(fēn)。當數據集很大(dà)且/或模型參數太多(duō)時(shí),計算(suàn)量有可(kě)能成爲瓶頸。機器學習(xí)已經發展出各種近似優化(huà)方法來(lái)減少計算(suàn)負載。例如,傳統的(de)計量經濟學估計量通(tōng)常在叠代優化(huà)過程的(de)每一步中使用(yòng)所有數據點,并且隻有在結果收斂時(shí)才停止參數搜索。而諸如使用(yòng)數據子集以及在收斂前停止搜索等捷徑通(tōng)常能夠以很小的(de)準确性損失爲代價而大(dà)大(dà)減少計算(suàn)量(例如,随機梯度下(xià)降和(hé)早停法是訓練神經網絡時(shí)的(de)兩個(gè)基本要素)。
1.5 金融學中應用(yòng)機器學習(xí)的(de)挑戰(及施加經濟學約束的(de)好處)
盡管金融研究在許多(duō)方面都非常适合機器學習(xí)方法,但金融領域的(de)某些方面也(yě)對(duì)機器學習(xí)提出了(le)挑戰。理(lǐ)解這(zhè)些障礙對(duì)于形成關于金融機器學習(xí)益處的(de)正确預期至關重要。
首先,雖然機器學習(xí)通(tōng)常被視爲一個(gè)“大(dà)數據”工具,但許多(duō)金融學領域的(de)基礎問題都飽受經濟時(shí)間序列中有限數據量的(de)困擾。例如,在宏觀金融中,标準數據集僅包含幾百個(gè)月(yuè)度觀測值。如此程度的(de)數據稀缺現實在其他(tā)機器學習(xí)領域是十分(fēn)罕見的(de);在其他(tā)領域中研究者通(tōng)常具有(出于各種意圖和(hé)目的(de))無限的(de)數據(或具備在需要時(shí)生成新數據的(de)能力)。而在關于時(shí)間序列的(de)研究中,新數據隻有随著(zhe)時(shí)間的(de)推移而累積。
其次,金融研究經常面臨低信噪比問題。這(zhè)一點在收益率預測中最爲明(míng)顯,這(zhè)是因爲市場(chǎng)有效性的(de)力量(利潤最大(dà)化(huà)和(hé)競争)始終在努力地消除價格走勢中的(de)任何可(kě)預測性(Samuelson 1965; Fama 1970)。因此,可(kě)以預見價格變化(huà)的(de)主要來(lái)源是意料之外的(de)新息(對(duì)于模型而言,這(zhè)是無法預測的(de)噪聲)。市場(chǎng)也(yě)可(kě)能表現出無效性,投資者偏好也(yě)可(kě)能産生随時(shí)間變化(huà)的(de)風險溢價,從而導緻一定的(de)收益率可(kě)預測性。盡管如此,我們仍應預期收益率的(de)可(kě)預測性很低、但關于可(kě)預測性的(de)競争卻非常激烈。
第三,市場(chǎng)會随時(shí)間不斷演變而身處其中的(de)投資者也(yě)會持續學習(xí)。因此機器學習(xí)預測模型的(de)目标并非一成不變。先前得(de)到的(de)可(kě)靠的(de)預測模式可(kě)能會因套利而被消除。監管和(hé)技術變化(huà)也(yě)可(kě)能會使經濟結構發生變化(huà)。結構不滿足平穩性使金融學對(duì)于機器學習(xí)而言成爲一個(gè)特别複雜(zá)的(de)領域,且不滿足平穩性進一步加劇了(le)有限數據量以及低信噪比帶來(lái)的(de)挑戰。
這(zhè)些挑戰也(yě)提供了(le)一個(gè)機會,讓人(rén)們可(kě)以從經濟理(lǐ)論知識中獲益。如 Israel, Kelly and Moskowitz (2020) 指出:
統計分(fēn)析的(de)一個(gè)基本原則是,理(lǐ)論和(hé)模型參數可(kě)以相互替代。你在模型中施加的(de)結構越多(duō),你需要估計的(de)參數就越少,且模型能夠更有效地使用(yòng)可(kě)用(yòng)的(de)數據來(lái)減少噪聲。也(yě)就是說,由于能夠過濾掉噪聲,因此模型是有用(yòng)的(de)。但是,過于簡化(huà)的(de)模型也(yě)可(kě)能過濾掉一些信号,所以在數據充盈且信噪比高(gāo)的(de)環境中,人(rén)們往往不希望使用(yòng)一個(gè)不必要的(de)小模型。通(tōng)過引入經濟學理(lǐ)論來(lái)描述數據的(de)某些屬性,并配合機器學習(xí)算(suàn)法來(lái)捕獲理(lǐ)論無法描述的(de)數據的(de)另外一些屬性,人(rén)們便可(kě)以開始解決數據量有限和(hé)信噪比很低這(zhè)兩個(gè)問題。
1.6 經濟學内容(金融經濟學的(de)兩種文化(huà))
我們回顧一下(xià) Breiman (2001) 關于統計學中 “兩種文化(huà)”的(de)論述,經過适當修改,它在金融經濟學中也(yě)有一個(gè)類比。第一種是“結構模型/假設檢驗”文化(huà),它傾向于施加完全或部分(fēn)指定的(de)結構化(huà)假設,并通(tōng)過假設檢驗來(lái)研究經濟機制。在簡化(huà)形式的(de)多(duō)因子模型和(hé)機器學習(xí)預測模型出現之前,傳統的(de)實證資産定價分(fēn)析範式通(tōng)過嚴格約束的(de)預測模型來(lái)研究價格。其中約束形式包括(i)特定的(de)函數形式以及擾動項分(fēn)布,和(hé)(ii)被允許納入到條件信息集的(de)變量十分(fēn)有限。這(zhè)些模型的(de)泛化(huà)能力很差,表現在它們無法解釋超出模型假定的(de)狹窄範圍或超出訓練數據集之外的(de)資産價格行爲。由于這(zhè)一看法早已深入人(rén)心,人(rén)們幾乎從不考慮這(zhè)類完全指定的(de)結構資産定價模型在樣本外的(de)表現。
另一種是“預測模型”文化(huà),它最看重統計方面的(de)解釋力,且其發展主要得(de)益于早先建立的(de)結構模型無法有效解釋實證數據。一旦能夠産生更加有意義且穩健的(de)數據拟合結果,哪怕模型設定和(hé)經濟學理(lǐ)論之間缺乏明(míng)确的(de)關聯,這(zhè)類模型也(yě)能夠被預測模型文化(huà)所接納。除了(le)自 1990 年代以來(lái)主導實證金融研究的(de)簡化(huà)形式模型外,迄今爲止的(de)金融機器學習(xí)研究也(yě)完全符合這(zhè)種文化(huà)。
在經濟研討(tǎo)會上,聽(tīng)衆、討(tǎo)論者和(hé)審稿人(rén)不時(shí)對(duì)統計預測研究抛出“欠缺經濟學”的(de)指責。這(zhè)種批評常常是錯誤的(de),而我們應當防止它過度貶低金融機器學習(xí)的(de)發展。我們不應忽視即使是最純粹的(de)統計建模應用(yòng)在金融學中也(yě)扮演著(zhe)重要的(de)經濟角色。和(hé)傳統的(de)進行結構假設檢驗的(de)計量經濟學相比,相對(duì)無結構的(de)預測模型的(de)經濟重要性相當,這(zhè)兩者隻是扮演了(le)不同的(de)科學角色。假設檢驗通(tōng)過探究特定的(de)機制來(lái)學習(xí)經濟學。然而,檢驗理(lǐ)論機制并非經濟學的(de)全部。無理(lǐ)論的(de)(我們想不到更好的(de)術語)預測模型所觸及的(de)實證領域更加廣泛,且能夠描繪出全新的(de)實證事實;基于這(zhè)些事實,人(rén)們能夠提出新理(lǐ)論并且通(tōng)過假設檢驗來(lái)研究其背後的(de)機制。這(zhè)兩種形式的(de)實證研究 —— 精确的(de)檢驗和(hé)粗略的(de)探索 —— 在科學進步的(de)庫恩過程中發揮著(zhe)互補的(de)作用(yòng)。
再回到資産定價研究的(de)核心問題:資産的(de)風險溢價到底由什(shén)麽決定?即使能準确地觀測到預期收益率,我們仍然需要理(lǐ)論來(lái)解釋它們的(de)行爲,以及需要通(tōng)過實證研究來(lái)檢驗這(zhè)些理(lǐ)論。然而,我們并不能觀測到風險溢價,此外準确地估計它們也(yě)難如登天。機器學習(xí)在衡量風險溢價方面取得(de)了(le)一定的(de)進展,有助于人(rén)們提出更好的(de)理(lǐ)論來(lái)解釋決定收益率行爲的(de)經濟機制。
拓展已有實證研究疆域的(de)一個(gè)重要好處是,哪怕人(rén)們尚不能參透隐藏在新實證發現背後的(de)經濟機制,經濟參與者 —— 尤其是金融市場(chǎng)參與者 —— 也(yě)總能從更多(duō)的(de)實證發現中受益。一直以來(lái),預測模型文化(huà)的(de)傳統是以幫助投資者、消費者以及政策制定者做(zuò)出更好決策爲目的(de)而展開研究。改進的(de)預測能夠爲經紀參與者提供關于狀态依賴分(fēn)布的(de)更準确描述。
總的(de)來(lái)說,經濟學是一個(gè)應用(yòng)領域。而預測模型文化(huà)的(de)經濟學恰恰體現在其能夠提高(gāo)預測能力。一旦具備更好的(de)預測 —— 即對(duì)經濟機會集的(de)更準确的(de)評估 —— 經濟主體便能夠在分(fēn)配稀缺資源時(shí)更好地權衡成本和(hé)收益。這(zhè)提高(gāo)了(le)社會的(de)福利水(shuǐ)平。在投資組合優化(huà)問題中,這(zhè)一點顯得(de)尤爲突出。我們也(yě)許不能總是理(lǐ)解模型通(tōng)過什(shén)麽經濟機制提供了(le)更好的(de)收益率或風險預測;但如果它做(zuò)到了(le),它就會提高(gāo)投資者的(de)效用(yòng),因此它在經濟上是重要的(de)。
Breiman 對(duì)結構假設檢驗文化(huà)的(de)主要批評是:
當通(tōng)過數據拟合來(lái)确定模型、并通(tōng)過模型做(zuò)出定量結論時(shí):這(zhè)些結論是關于模型的(de)機制,而不是關于真實世界的(de)機制。一旦模型不能很好地反映真實世界,那麽通(tōng)過模型得(de)出的(de)結論便可(kě)能是錯誤的(de)。
我們并不将上述觀點視爲對(duì)結構建模的(de)批判 —— 畢竟結構建模仍然是實證金融研究的(de)基礎 —— 而是将它視爲對(duì)使用(yòng)預測模型的(de)辯護。當然,将兩種文化(huà)完全對(duì)立開來(lái)同樣是不可(kě)理(lǐ)喻的(de)。學術研究往往二者兼顧且需要利用(yòng)諸多(duō)工具,研究者們也(yě)并非被劃分(fēn)到不同的(de)意識形态陣營(每個(gè)陣營是同質的(de))。兩種文化(huà)在經濟上都很重要。Breiman 鼓勵人(rén)們考慮靈活的(de)乃至是非參數化(huà)模型,以更好的(de)了(le)解經濟機制:
模型的(de)目的(de)是獲取關于因變量和(hé)自變量之間關系的(de)有用(yòng)信息。可(kě)解釋性是獲取信息的(de)一種方式。但是,并非隻有簡單的(de)模型才能提供關于二者之間關系的(de)準确信息;同樣也(yě)并非隻有(結構)數據模型才能實現上述目标。
預測模型是理(lǐ)解機制的(de)第一步。此外,結構建模也(yě)可(kě)以直接從機器學習(xí)中受益,而這(zhè)種受益并不以犧牲有針對(duì)性的(de)假設檢驗或其特定的(de)經濟機制爲前提。到目前爲止,機器學習(xí)更多(duō)地出現在金融經濟學的(de)預測模型文化(huà)中。然而很重要的(de)一點是要認識到,對(duì)于結構假設檢驗文化(huà)而言,它同樣是一個(gè)強大(dà)的(de)工具(這(zhè)是未來(lái)金融機器學習(xí)研究的(de)一個(gè)重要方向)。當然,對(duì)于一個(gè)僅僅建立于“無理(lǐ)論測量”(Koopmans 1947)之上的(de)研究方式來(lái)說,如果我們同時(shí)通(tōng)過經濟學理(lǐ)論以及深入理(lǐ)解 Lucas (1976) 批判來(lái)思考數據,将會使它發揮更大(dà)的(de)作用(yòng)。同樣,一個(gè)僅通(tōng)過現有經濟模型解釋數據的(de)研究方式也(yě)很可(kě)能會忽視掉意想不到、但經濟上非常重要的(de)統計模式。
Hayek (1945) 研究了(le)分(fēn)散化(huà)信息對(duì)資源配置的(de)經濟影(yǐng)響。關于如何實現有效的(de)經濟秩序的(de)核心問題,他(tā)指出:
如果我們掌握了(le)所有相關信息,如果我們可(kě)以從給定的(de)偏好系統出發,如果我們掌握了(le)可(kě)用(yòng)手段的(de)完整知識,那麽剩下(xià)的(de)問題就純粹是邏輯問題……然而,這(zhè)顯然不是社會面臨的(de)經濟問題。人(rén)們提出的(de)經濟計算(suàn)雖然是解決社會經濟問題的(de)重要步驟,但尚未就該問題給出答(dá)案。這(zhè)其中的(de)原因是,經濟計算(suàn)的(de)起始數據是從整個(gè)社會收集的(de)所有相關數據,沒有哪個(gè)人(rén)或者單個(gè)機構能完全獲得(de)并理(lǐ)解所有的(de)數據以及數據變化(huà)所帶來(lái)的(de)經濟影(yǐng)響(譯者注:在經濟領域,這(zhè)個(gè)觀點被廣泛接受。這(zhè)也(yě)是爲什(shén)麽我們需要使用(yòng)統計模型,以便從大(dà)量多(duō)樣的(de)數據中抽取有用(yòng)的(de)信息,并嘗試預測和(hé)理(lǐ)解經濟現象)。
雖然 Hayek 主要關注的(de)是分(fēn)散式計劃的(de)優點,但他(tā)的(de)陳述也(yě)适用(yòng)于一般的(de)信息技術,特别是預測技術。讓我們大(dà)膽地從統計學問題視角重新解讀 Hayek 的(de)觀點:經濟主體在數據生成過程(DGP)已知時(shí)所能夠實現的(de)配置效率,與其在必須估計 DGP 時(shí)所能夠實現的(de)配置效率二者之間存在差距。其中的(de)第一個(gè)原因是模型設定偏誤問題,即我們不能指望經濟主體正确地設定統計模型。他(tā)們隻能使用(yòng)某種帶設定偏誤的(de)參數模型或非參數近似模型。在任何一種情況下(xià),模型設定偏誤都會導緻已知 DGP 時(shí)的(de)最優配置(稱之爲“第一最優解”)與由該模型得(de)到的(de)最優配置(稱之爲“第二最優解”)之間存在差距。然而,由于我們必須通(tōng)過有限的(de)數據來(lái)估計模型,因此即便是第二最優解也(yě)隻是水(shuǐ)中望月(yuè)。這(zhè)就引發了(le)由采樣波動導緻的(de)另一個(gè)差距。即使我們知道 DGP 的(de)函數形式,我們仍然需要估計它,而估計中的(de)噪聲會導緻最終偏離第一最優解。再疊加模型設定偏誤問題,我們實際上隻能獲得(de)“第三最優解”的(de)配置,即來(lái)自一個(gè)誤設模型的(de)噪聲估計所産生的(de)解。
如果我們能夠通(tōng)過使用(yòng)善于處理(lǐ)大(dà)量信息和(hé)數據集的(de)方法而獲得(de)改進的(de)預測,便可(kě)使縮小前文中提到的(de)差距(即 Hayek 提到的(de)第一最優資源配置這(zhè)一純粹的(de)“邏輯問題”和(hé)經濟主體能夠實現的(de)第三最優現實配置這(zhè)二者的(de)差距)成爲可(kě)能。由于可(kě)學習(xí)性的(de)統計限制(Da, Nagel and Xiu 2022;Didisheim, et al. 2023),我們永遠(yuǎn)無法完全消除上述差距。但是,強大(dà)的(de)近似模型和(hé)巧妙的(de)正則化(huà)方法意味著(zhe)機器學習(xí)在經濟上是重要的(de),而其重要性恰恰源自它能夠産生更好的(de)決策。投資組合選擇問題能夠很好地說明(míng)這(zhè)一點。如果一個(gè)遵循現代投資組合理(lǐ)論的(de)投資者知道真實的(de)預期收益率和(hé)協方差矩陣,那麽他(tā)隻需将它們套入到 Markowitz 理(lǐ)論的(de)“邏輯”之中便能夠得(de)到第一最優解。然而,與 Hayek 的(de)問題類似,這(zhè)并非現實世界中的(de)投資者所要處理(lǐ)的(de)問題。相反,他(tā)們的(de)問題主要是一個(gè)估計問題(一類預測問題)。投資者的(de)目标是獲得(de)關于預期收益率和(hé)協方差矩陣的(de)合理(lǐ)估計,以便當他(tā)們采用(yòng) Markowitz 理(lǐ)論時(shí),能夠獲得(de)穩健的(de)樣本外表現。一旦這(zhè)個(gè)前提不成立,即缺少高(gāo)質量的(de)估計值,Markowitz 的(de)最優解将會導緻災難性的(de)配置後果。這(zhè)一點已在很多(duō)研究中得(de)到證實。
參考文獻
Breiman, L. (2001). Random forests. Machine Learning 45(1), 5 – 32.
Chen, H., W. W. Dou, and L. Kogan (forthcoming). Measuring “Dark Matter” in Asset Pricing Models. Journal of Finance.
Cochrane, J. H. (2005). Asset Pricing: Revised Edition. Princeton University Press.
Da, R., S. Nagel, and D. Xiu (2022). The statistical limit of arbitrage. Working paper.
Didisheim, A., S. Ke, B. T. Kelly, and S. Malamud (2023). Complexity in factor pricing models. Working paper.
Fama, E. F. (1970). Efficient capital markets: A review of theory and empirical work. Journal of Finance 25(2), 383 – 417.
Gu, S., B. T. Kelly, and D. Xiu (2020). Empirical asset pricing via machine learning. Review of Financial Studies 33(5), 2223 – 2273.
Hansen, L. P. and S. F. Richard (1987). The role of conditioning information in deducing testable restrictions implied by dynamic asset pricing models. Econometrica 55(3), 587 – 613.
Hansen, L. P. and K. J. Singleton (1982). Generalized instrumental variables estimation of nonlinear rational expectations models. Econometrica 50(5), 1269 – 1286.
Hayek, F. A. (1945). The use of knowledge in society. American Economic Review 35(4), 519 – 530.
Israel, R., B. Kelly, and T. J. Moskowitz (2020). Can Machines “Learn” Finance? Journal of Investment Management 18(2), 23 – 36.
Koopmans, T. C. (1947). Measurement without theory. Review of Economics and Statistics 29(3), 161 – 172.
Lucas Jr, R. E. (1976). Econometric policy evaluation: A critique. In: Carnegie-Rochester Conference Series on Public Policy. Vol. 1. North-Holland. 19 – 46.
Martin, I. W. and S. Nagel (2022). Market efficiency in the age of big data. Journal of Financial Economics 145(1), 154 – 177.
Mehra, R. and E. C. Prescott (1985). The equity premium: A puzzle. Journal of Monetary Economics 15(2), 145 – 161.
Samuelson, P. A. (1965). Rational theory of warrant pricing. Industrial Management Review 6(2), 13 – 39.
免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。