The Virtues of Complex Models

發布時(shí)間:2023-08-07  |   來(lái)源: 川總寫量化(huà)

摘要:跟著(zhe)兩位大(dà)佬一起洞悉金融機器學習(xí)的(de)最新學術前沿(II)。

作者:石川


上期公衆号翻譯了(le) Bryan Kelly 和(hé)修大(dà)成兩位教授最新的(de) Financial Machine Learning 的(de)第一章(zhāng)。之後有小夥伴催更後續章(zhāng)節。


該文的(de)第二章(zhāng)标題爲 The Virtues of Complex Models,即複雜(zá)模型的(de)好處。公衆号的(de)老朋友也(yě)許在最近一年以來(lái)對(duì)這(zhè)個(gè)提法不再陌生。Bryan Kelly 這(zhè)兩年一個(gè)重要的(de) research agenda 就是 The Virtues of Complexity 系列,而我也(yě)很早就開始追蹤他(tā)在這(zhè)方面的(de)研究成果并通(tōng)過公衆号多(duō)次進行了(le)非 technical 的(de)介紹(例如《機器學習(xí)與資産定價:Facts and Fictions》以及《因子投資的(de)高(gāo)維數時(shí)代》)。因此,雖然不敢說對(duì)這(zhè)章(zhāng)的(de)内容如數家珍,但也(yě)算(suàn)是比較熟悉。更重要的(de)是,我也(yě)越來(lái)越意識到 The Virtues of Complexity 對(duì)于量化(huà)投資和(hé)因子投資的(de)啓示。


因此,今天繼續翻譯 Financial Machine Learning 的(de)第二章(zhāng)。再次感謝劉洋溢和(hé)王熙兩位老師提出的(de)寶貴修改建議(yì)。


最後,本翻譯僅供學習(xí)交流使用(yòng),禁止一切商業行爲,未經授權,禁止轉載。


以下(xià)是正文部分(fēn)。





包括我們在内的(de)許多(duō)人(rén)在接受計量經濟學培訓時(shí),都承襲了(le)“簡約原則”這(zhè)一傳統。該原則充分(fēn)地體現在 Box and Jenkins (1970) 的(de)模型建立方法中,對(duì)金融計量經濟學産生了(le)深遠(yuǎn)的(de)影(yǐng)響。在 Box 和(hé) Jenkins 兩位關于預測的(de)最新版教科書(shū)的(de)引言中,“構建模型的(de)基本觀念”中的(de)第一條就是“簡約性”,他(tā)們強調“實踐中,我們應使用(yòng)盡可(kě)能少的(de)參數來(lái)準确地描述一個(gè)現象,過程或數據集的(de)性質或行爲,這(zhè)一點非常重要”。


在現代機器學習(xí)算(suàn)法采用(yòng)大(dà)規模參數化(huà)這(zhè)一現實面前,簡約模型似乎顯得(de)格格不入。領先的(de) GPT-3 語言模型(Brown et al. 2020)使用(yòng)了(le) 1750 億個(gè)參數。即使是 Gu, Kelly and Xiu (2020) 中那個(gè)在規模上完全不可(kě)與之相提并論的(de)收益率預測神經網絡模型也(yě)有差不多(duō) 30000 個(gè)參數。對(duì)于承襲 Box-Jenkins 的(de)計量經濟學家來(lái)說,如此豐富的(de)參數化(huà)似乎過于奢侈,容易導緻過拟合,并可(kě)能在樣本外産生災難性的(de)表現。


然而,近年來(lái)在許多(duō)金融之外其他(tā)領域的(de)研究成果均與上述觀點相悖。在計算(suàn)機視覺和(hé)自然語言處理(lǐ)等應用(yòng)中,擁有海量參數的(de)模型,以及完美(měi)拟合訓練集樣本的(de)模型,通(tōng)常正是樣本外表現最好的(de)模型(譯者注:不過人(rén)工智能文獻也(yě)往往擁有較大(dà)的(de)數據集、并擁有諸多(duō)數據加強的(de)方法)。在概括神經網絡文獻的(de)現狀時(shí),Belkin (2021) 總結到:“從技術可(kě)行性的(de)角度看,最複雜(zá)的(de)網絡總是能産生最優異的(de)表現。”顯然,現代機器學習(xí)研究颠覆了(le)計量經濟學所奉行的(de)簡約原則。


人(rén)們試圖爲解釋大(dà)規模參數化(huà)的(de)成功尋求理(lǐ)論基礎,并回答(dá) Breiman (1995) 提出的(de)問題:“爲什(shén)麽參數衆多(duō)的(de)神經網絡沒有過度拟合數據?”在本節中,我們将一窺這(zhè)個(gè)問題的(de)答(dá)案。爲此,我們借鑒了(le)統計文獻中的(de)最新發現,它們描述了(le)“過度參數化(huà)”模型(即參數個(gè)數遠(yuǎn)超可(kě)用(yòng)訓練集的(de)觀測數據個(gè)數)的(de)行爲。


最新的(de)文獻已經開始回答(dá)機器學習(xí)模型的(de)統計理(lǐ)論含義,并關注過度參數化(huà)模型的(de)樣本外預測準确性。在這(zhè)一章(zhāng),我們關注的(de)問題是金融機器學習(xí)中過度參數化(huà)以及過拟合現象所帶來(lái)的(de)經濟影(yǐng)響。已經有不少金融學論文發現,通(tōng)過機器學習(xí)模型能顯著提高(gāo)收益率預測的(de)準确性。收益率預測的(de)主要經濟用(yòng)途是構造效用(yòng)最優化(huà)的(de)投資組合。我們的(de)論述會側重于解釋“機器學習(xí)投資組合”在樣本外的(de)風險收益權衡,這(zhè)些投資組合通(tōng)過高(gāo)度參數化(huà)的(de)收益率預測模型而構造。我們的(de)論述主要基于 Kelly, Malamud and Zhou (2022a) 和(hé) Didisheim et al. (2023) 的(de)發現。


2.1 分(fēn)析機器學習(xí)模型的(de)工具


Kelly, Malamud and Zhou (2022a) 提出了(le)一個(gè)思想實驗。設想一位分(fēn)析師在尋找一個(gè)成功的(de)收益率預測模型。假設資産收益率  由如下(xià)真實模型決定


  


其中預測變量集  可(kě)能爲分(fēn)析師所知,但真正的(de)預測函數  對(duì)她而言是未知的(de)。在沒有  的(de)知識的(de)情況下(xià),基于通(tōng)用(yòng)逼近理(lǐ)論(例如,Hornik, Stinchcombe and White 1990),分(fēn)析師決定用(yòng)基礎神經網絡來(lái)近似  :


  


在上面這(zhè)個(gè)回歸模型中,每個(gè)特征都是原始特征的(de)某個(gè)事先選定的(de)非線性變換,即


         (2.2)


最終,分(fēn)析師的(de)目标是估計下(xià)面這(zhè)個(gè)近似回歸模型


        (2.3)


爲此,分(fēn)析師有  個(gè)訓練集觀測樣本可(kě)供我們學習(xí)模型參數,但是她必須首先确定模型的(de)複雜(zá)度,即預測變量的(de)個(gè)數  。當  取值很小時(shí),她會得(de)到一個(gè)簡單模型,該模型的(de)好處是方差較低;但是當  取值很大(dà)時(shí),她所得(de)到的(de)複雜(zá)模型也(yě)許能夠更好地近似未知的(de)數據生成過程。那麽問題來(lái)了(le),她應該選擇多(duō)大(dà)的(de)模型複雜(zá)度(即  的(de)取值)呢(ne)?


也(yě)許聽(tīng)上去令人(rén)驚訝,但 Kelly, Malamud and Zhou (2022a) 指出分(fēn)析師應該使用(yòng)其算(suàn)力約束下(xià)能夠實現的(de)最複雜(zá)的(de)近似模型。樣本外預測的(de)準确性和(hé)投資組合的(de)預期表現會随著(zhe)模型複雜(zá)度而遞增。爲了(le)得(de)出這(zhè)個(gè)答(dá)案,Kelly, Malamud and Zhou (2022a) 借助了(le)兩種關鍵的(de)數學工具來(lái)分(fēn)析複雜(zá)的(de)非線性(即機器學習(xí))模型。它們分(fēn)别是帶生成非線性特征(即上面的(de)  )的(de)嶺回歸以及随機矩陣理(lǐ)論,後者用(yòng)于在變量個(gè)數  相對(duì)于訓練集樣本數很大(dà)時(shí)依舊(jiù)能保持類似大(dà)小的(de)情況下(xià)分(fēn)析估計量的(de)行爲。


2.1.1 帶生成特征的(de)嶺回歸


Kelly, Malamud and Zhou (2022a) 的(de)第一個(gè)建模假設聚焦于式 (2.3) 所示的(de)高(gāo)維線性預測模型,我們稱之爲“實證模型”。關于式 (2.3) 的(de)正确理(lǐ)解爲,這(zhè)一公式并非強調收益率會受到爲數衆多(duō)的(de)驅動力的(de)線性影(yǐng)響。相反,它表明(míng)的(de)是數據生成過程(DGP)是未知的(de),但它或許可(kě)以通(tōng)過一組變量  來(lái)近似,這(zhè)組變量是從原始(可(kě)能數量有限)驅動變量  經非線性變化(huà)擴展而來(lái)的(de)。在機器學習(xí)的(de)術語中,  是從原始特征  派生出來(lái)的(de)“生成特征”(例如通(tōng)過非線性神經網絡傳播)。


這(zhè)個(gè)問題的(de)一個(gè)鮮明(míng)特點是,實證模型往往存在模型設定偏誤。在式 (2.3) 中消除模型設定偏誤需要我們無限地擴展模型所包含的(de)特征,但實際上我們隻能使用(yòng)有限個(gè)數的(de)特征,即  個(gè)。當  很小時(shí),由于需要估計的(de)參數少(方差低),因此模型很穩定,但它并不能很好地近似真實的(de)數據生成過程(偏差大(dà))。機器學習(xí)的(de)一個(gè)基本前提是,更加靈活的(de)模型(即  個(gè)數很大(dà))能夠提高(gāo)預測準确性。對(duì)于這(zhè)些模型而言,其參數估計可(kě)能有很多(duō)噪聲(高(gāo)方差),但它們确實提供了(le)關于真實數據生成過程更準确的(de)近似(小偏差)。從偏差—方差權衡的(de)角度來(lái)看,事前決定最優的(de)  值并不容易。作爲經濟學家,我們的(de)終極目标是通(tōng)過權衡偏差和(hé)方差以使得(de)模型産生最優的(de)經濟結果,以期提高(gāo)投資者的(de)期望效用(yòng)。正是對(duì)于上述目标的(de)追求促使 Kelly, Malamud and Zhou (2022a) 在理(lǐ)論方面探究高(gāo)複雜(zá)度模型的(de)作用(yòng)。


第二個(gè)建模假設是使用(yòng)嶺回歸作爲 (2.3) 的(de)估計量:


        (2.4)


其中  是嶺收縮參數。在該估計量的(de)所有細節之中,正則化(huà)對(duì)我們如下(xià)的(de)討(tǎo)論至關重要。如果不施加正則化(huà),那麽當模型複雜(zá)度很高(gāo)(即  )時(shí),式 (2.4) 的(de)分(fēn)母是奇異的(de)。另外我們也(yě)将看到,對(duì)于低複雜(zá)度(即  )的(de)模型,正則化(huà)也(yě)會影(yǐng)響  。


最後,爲了(le)刻畫(huà)高(gāo)複雜(zá)度模型對(duì)于投資者的(de)經濟影(yǐng)響,Kelly, Malamud and Zhou (2022a) 假設投資者使用(yòng)預測結果按照(zhào)如下(xià)方式構造交易策略:


  


式中  表示資産的(de)權重,它正比于模型預測結果,并用(yòng)于動态調節投資組合在不同資産上的(de)倉位。在他(tā)們的(de)分(fēn)析中,  的(de)取值等于他(tā)們所使用(yòng)的(de)複雜(zá)模型産生的(de)樣本外預期收益率預測。此外, 他(tā)們假設投資者的(de)投資結果通(tōng)過非條件夏普比率來(lái)衡量,其定義如下(xià):


        (2.5)


盡管還(hái)存在其他(tā)合理(lǐ)的(de)策略構造方式以及績效評價标準,但上述選擇均是在學術界和(hé)投資業界中的(de)常見選擇,因此它們兼顧透明(míng)性和(hé)易理(lǐ)解性。


2.1.2 随機矩陣理(lǐ)論


上述嶺回歸公式以線性回歸的(de)方式展示了(le)像神經網絡這(zhè)樣的(de)機器學習(xí)模型。我們的(de)願景是,通(tōng)過這(zhè)種表示,可(kě)能能夠對(duì)複雜(zá)模型在  且  的(de)情況下(xià)的(de)預期樣本外表現給出實質性的(de)結論。機器學習(xí)模型的(de)漸近性質與标準計量經濟學所關注的(de)場(chǎng)景不同(即使用(yòng)當  以及  不變情況下(xià)的(de)漸近逼近)。随機矩陣理(lǐ)論非常适合描述嶺回歸在取值較大(dà)時(shí)的(de)行爲。  爲了(le)簡化(huà)符号,我們将在下(xià)面的(de)討(tǎo)論中省略  并使用(yòng)模型參數化(huà)相對(duì)于訓練集樣本數據的(de)程度。換句話(huà)說,我們将在接下(xià)來(lái)談論  這(zhè)一比率,并稱其爲“模型複雜(zá)度”。


當  時(shí),刻畫(huà)  的(de)關鍵是  維樣本協方差矩陣,即  。随機矩陣理(lǐ)論描述了(le)  的(de)特征值的(de)極限分(fēn)布。一旦知道這(zhè)個(gè)分(fēn)布就足以确定嶺回歸在樣本外的(de)預期預測表現(  )以及樣本外策略的(de)預期夏普比率。具體而言,它們由以下(xià)這(zhè)個(gè)式子确定


        (2.6)


它是  的(de)特征值分(fēn)布的(de)極限 Stieltjes 變換。由于 Stieltjes 變換涉及到嶺矩陣  ,因此我們從式(2.6)中能夠看到與它嶺回歸之間的(de)密切聯系。   的(de)函數形式可(kě)以通(tōng)過 Marcenko-Pastur 定理(lǐ)的(de)一個(gè)推廣形式來(lái)确定。通(tōng)過  ,我們就可(kě)以直接計算(suàn)樣本外預期  和(hé)夏普比率,以及它們對(duì)于模型複雜(zá)度的(de)敏感程度(請參考 Kelly, Malamud and Zhou (2022a) 中的(de)第 3 和(hé) 4 部分(fēn)關于上述内容的(de)詳細論述)。


換句話(huà)說,模型複雜(zá)度對(duì)于人(rén)們理(lǐ)解模型的(de)行爲至關重要。如果樣本數量  的(de)增長(cháng)速度比預測變量的(de)增長(cháng)速度更快(kuài)(即  ),那麽我們可(kě)以利用(yòng)傳統計量經濟學中當  且固定  時(shí)的(de)漸近性質。在這(zhè)種情況下(xià),模型在樣本外的(de)預期表現将與其在樣本内的(de)估計值相一緻。然而,這(zhè)種情況有些不切實際且沒有什(shén)麽研究價值。極具研究價值的(de)情況是把高(gāo)度參數化(huà)的(de)模型施加于稀缺數據時(shí)的(de)情況,即  。正是在這(zhè)種情況下(xià),模型出現了(le)令人(rén)意外的(de)樣本外表現。


2.2 越大(dà)往往越好


Kelly, Malamud and Zhou (2022a) 爲高(gāo)複雜(zá)度機器學習(xí)模型及其相關交易策略的(de)性質提供了(le)嚴格的(de)理(lǐ)論陳述。在實證部分(fēn),他(tā)們通(tōng)過市場(chǎng)收益率的(de)預測問題(譯者注:擇時(shí)問題)研究了(le)複雜(zá)模型的(de)參數校準問題,而我們接下(xià)來(lái)的(de)論述将側重于他(tā)們關于該問題的(de)重要定性結果。具體來(lái)說,他(tā)們假設市場(chǎng)的(de)年波動率爲 20%,并假設當真實函數關系和(hé)預測變量對(duì)預測者完全已知時(shí),她所能取得(de)的(de)“真實”(但當然是無法實現的(de))月(yuè)頻(pín)預測性  爲 20%。然而,由于缺乏足夠的(de)數據供模型學習(xí)以估計其所使用(yòng)的(de)諸多(duō)參數,模型的(de)複雜(zá)度反而成爲其學習(xí)真實數據生成過程(DGP)的(de)障礙,因此在這(zhè)種設定下(xià)推導出的(de)最佳可(kě)行  僅僅是每月(yuè)接近 1%。我們接下(xià)來(lái)将聚焦于模型存在設定偏誤的(de)情況,即實證模型所使用(yòng)的(de)預測變量僅僅是真實預測變量的(de)子集的(de)情況。


在上述參數校準問題中,他(tā)們假設真實但未知 DGP 的(de)複雜(zá)度爲  ,并通(tōng)過參數  來(lái)控制相對(duì)于真實模型而言,實證模型的(de)複雜(zá)度。我們分(fēn)析了(le)不同模型複雜(zá)度下(xià)實證模型的(de)表現,其複雜(zá)度從非常簡單(  ,  ,因此存在嚴重設誤)到高(gāo)度複雜(zá)(  ,  ,這(zhè)對(duì)應于最豐富的(de)近似模型且實際上還(hái)原了(le)正确的(de)模型設定)。複雜(zá)度很低的(de)模型是較差的(de)近似模型,但它們的(de)參數可(kě)以被精确地估計。随著(zhe)  的(de)增加,實證模型能夠更好地近似真實 DGP,但是如果在不考慮正則化(huà)的(de)前提下(xià),其預測方差會增加。在參數設定問題中,我們同時(shí)也(yě)考慮了(le)一系列嶺罰項  的(de)取值。


首先考慮普通(tōng)最小二乘法(OLS)估計量  ,它是當  時(shí)方程 (2.4) 的(de)特例。當  時(shí),模型非常簡單,因而不具備逼近真實 DGP 的(de)能力且  基本爲零。随著(zhe)  的(de)增加并不斷(從小于  的(de)情況)接近  時(shí),模型對(duì)真實 DGP 的(de)近似有所改進,但普通(tōng)最小二乘估計量的(de)分(fēn)母會“爆炸”,導緻預測誤差的(de)方差激增。這(zhè)個(gè)現象可(kě)以通(tōng)過圖 2.1 加以說明(míng)。當  時(shí),模型完美(měi)地拟合訓練集數據(這(zhè)在機器學習(xí)術語中被稱作“插值”訓練集數據)。出于這(zhè)個(gè)原因,  也(yě)被稱爲“插值邊界”。因此,對(duì)于  “爆炸”(譯者注:其範數急劇上升,說明(míng)模型的(de)方差非常高(gāo))的(de)現象的(de)一個(gè)常見解釋是模型對(duì)訓練集數據的(de)過拟合,因而模型在樣本外數據上的(de)泛化(huà)性能将會很差。


f1.png


當  超過  時(shí),我們便進入了(le)過度參數化(huà)或高(gāo)複雜(zá)度區(qū)域。在這(zhè)種情況下(xià),參數的(de)個(gè)數超過了(le)觀測數據的(de)數量,因此最小二乘問題的(de)解不再唯一,且在這(zhè)時(shí)回歸變量協方差矩陣的(de)逆矩陣是未定義的(de)。然而,它的(de)僞逆矩陣是存在的(de),并且對(duì)應于最小二乘問題的(de)特定唯一解:  。在所有能夠完美(měi)拟合訓練集數據的(de)解中,上面這(zhè)個(gè)解具有最小的(de) L2 範數。實際上,當收縮參數  趨近于零時(shí),上述解和(hé)如下(xià)嶺回歸估計量等價:


  


  被稱爲“嶺參數趨于零的(de)”回歸估計量(譯者注:原著中用(yòng)的(de)是 ridgeless,表示上式中  趨于  的(de)情況。此處,将 ridgeless 直譯爲無嶺或者無脊均不能表明(míng)  趨于  ,因此譯爲“嶺參數趨于零的(de)”。在後文中,爲了(le)避免使用(yòng)這(zhè)一長(cháng)串翻譯,我選擇保留英文 ridgeless)(對(duì)應圖 2.1 中的(de)藍色曲線)。當  時(shí),普通(tōng)最小二乘就是 ridgeless(譯者注:即沒有正則化(huà))估計量,而當  時(shí),ridgeless 情況則通(tōng)過極限  來(lái)定義。


令人(rén)驚訝的(de)是,當模型複雜(zá)度超過 1 時(shí)(譯者注:根據作者的(de)定義,這(zhè)對(duì)應  的(de)情況),ridgeless 回歸的(de)  值上升了(le)。這(zhè)背後的(de)原因是,随著(zhe)  的(de)增大(dà),ridgeless 回歸可(kě)以在更大(dà)的(de)解空間中進行搜索,從而找到 L2 範數最小且仍然能夠完美(měi)拟合訓練集樣本的(de)  值。這(zhè)實際上恰好起到了(le)一種收縮作用(yòng),使  的(de)估計值向零有偏收縮。這(zhè)種偏倚造成了(le)預測方差的(de)下(xià)降以及  的(de)提高(gāo)。換句話(huà)說,盡管  ,但 ridgeless 解仍然對(duì)最小二乘估計量施加了(le)正則化(huà),且  越大(dà),正則化(huà)的(de)強度越大(dà)。當  非常大(dà)時(shí),樣本外預期  變爲正數。上述 ridgeless 最小二乘的(de)特性是統計學文獻中新近發現的(de)現象,尚處于研究的(de)萌芽階段。它表明(míng)通(tōng)過令模型複雜(zá)度(即協變量的(de)維數)超過樣本大(dà)小,能夠提高(gāo)收益率預測的(de)準确性,這(zhè)挑戰了(le)标準金融經濟學研究中重視模型簡約性的(de)鐵律。


圖 2.1 描述了(le)高(gāo)複雜(zá)度模型的(de)統計行爲。圖 2.2 則将注意力轉向它們的(de)經濟後果。圖中第一行右側的(de)子圖展示了(le)機器學習(xí)交易策略的(de)波動率如何随模型複雜(zá)度變化(huà)。策略的(de)波動率與  的(de)範數以及  一一對(duì)應(這(zhè)三個(gè)量是預測誤差方差的(de)不同表示方法)。其中重要的(de)一點是,随著(zhe)模型複雜(zá)度超過  ,交易策略的(de)波動率持續下(xià)降。複雜(zá)度加強了(le) ridgeless 估計量中(間接的(de))正則化(huà)強度,從而降低了(le)收益率的(de)波動率(并且  會進一步降低波動率)。


圖 2.2 中第一行左側的(de)子圖則展示了(le)高(gāo)複雜(zá)度模型的(de)關鍵經濟行爲 —— 擇時(shí)策略在樣本外的(de)預期收益率。對(duì)簡單策略來(lái)說,它們的(de)預期收益率較低。同樣,這(zhè)是因爲簡單的(de)模型無法很好地近似真實的(de) DGP。增加模型的(de)複雜(zá)度可(kě)以使人(rén)們更接近真實情況,并且單調地提升交易策略的(de)預期收益率。


f2.png


這(zhè)二者對(duì)投資者最終的(de)投資結果意味著(zhe)什(shén)麽?圖 2.2 第二行的(de)子圖以樣本外預期夏普比率爲例展示了(le)投資者的(de)效用(yòng)。樣本外夏普比率可(kě)歸結爲經典的(de)偏差-方差權衡。預期收益率純粹反映偏差影(yǐng)響。對(duì)于低複雜(zá)度模型而言,偏差來(lái)源于模型設定偏誤,而非對(duì)參數的(de)收縮作用(yòng)。對(duì)于高(gāo)複雜(zá)度模型,模型設定偏誤變小,但是參數收縮導緻的(de)偏差較大(dà)。理(lǐ)論顯示,預期收益率随模型複雜(zá)度而提升,這(zhè)意味著(zhe)對(duì)這(zhè)個(gè)預測問題而言,模型設定偏誤造成的(de)偏差比參數收縮造成的(de)偏差代價更大(dà)。與此同時(shí),策略的(de)波動率純粹由預測的(de)方差決定。無論是簡單模型(  )還(hái)是高(gāo)度複雜(zá)的(de)模型(  ),都會産生低方差。鑒于上述偏差-方差權衡的(de)特點,一個(gè)自然的(de)結論就是樣本外夏普比率也(yě)随模型複雜(zá)度而增加,正如圖 2.2 所示。


我們可(kě)以将上述發現和(hé)“雙(側)下(xià)降”現象加以比較,“雙下(xià)降”現象指的(de)是當  接近零時(shí),模型樣本外的(de)均方誤差(MSE)關于模型複雜(zá)度呈現出非單調的(de)模式(Belkin et al. 2018;Hastie et al. 2019)。對(duì)于我們的(de)問題而言,MSE 的(de)雙下(xià)降現象對(duì)應著(zhe) ridgeless 回歸中夏普比率的(de)“雙上升”現象(譯者注:即在  兩側,夏普比率均出現上升,見圖 2.2 第二行中代表 ridgeless 回歸結果的(de)藍線)。Kelly, Malamud and Zhou (2022a) 證明(míng),當  時(shí),ridgeless 回歸夏普比率的(de)下(xià)降是由于收縮不足造成的(de)。隻要施加足夠程度的(de)收縮(Kelly, Malamud and Zhou 2022a 明(míng)确描述了(le)這(zhè)個(gè)問題),即使在模型複雜(zá)度較低的(de)情況下(xià),增加複雜(zá)度也(yě)是有益的(de):夏普比率的(de)下(xià)降消失了(le),而“雙上升”現象也(yě)變成“持續上升”現象。


總的(de)來(lái)說,這(zhè)些結果挑戰了(le)本節前言所討(tǎo)論的(de)簡約主義信仰。它們表明(míng),在實證模型存在模型設定偏誤的(de)情況下(xià),複雜(zá)度是一種優點。這(zhè)不僅對(duì)于樣本外的(de)統計表現而言是正确的(de)(如 Belkin et al. 2019;Hastie et al. 2019 等),而且對(duì)樣本外投資者的(de)經濟效用(yòng)而言也(yě)是正确的(de)。與傳統的(de)觀點相反,通(tōng)過讓模型參數個(gè)數遠(yuǎn)超過訓練集樣本個(gè)數,理(lǐ)論上可(kě)以提高(gāo)基于機器學習(xí)模型所構造的(de)投資組合的(de)(譯者注:樣本外)表現。


對(duì)于使用(yòng)複雜(zá)模型的(de)最佳實踐,Kelly, Malamud and Zhou (2022a) 總結到:


我們的(de)結果并不意味著(zhe)随意向模型中添加任意預測因子。相反,我們建議(yì):(1)模型包含所有可(kě)能相關的(de)預測因子,以及(2)使用(yòng)複雜(zá)的(de)非線性模型取代簡單的(de)線性模型。哪怕在訓練集數據稀缺的(de)情況下(xià),這(zhè)樣做(zuò)也(yě)會改進預測和(hé)投資組合,這(zhè)種作用(yòng)在配合謹慎的(de)參數收縮時(shí)更加明(míng)顯。


爲了(le)推導出上述結果,Kelly, Malamud and Zhou (2022a) 基于的(de)假設是可(kě)預測性在協變量之間均勻分(fēn)布。乍看上去,這(zhè)個(gè)假設或許過于苛刻,因爲許多(duō)标準的(de)預測變量都難以滿足這(zhè)一假設。然而,這(zhè)個(gè)假設與标準的(de)神經網絡模型是一緻的(de)(實際上也(yě)是由此引出的(de)),在這(zhè)種模型中,原始特征被混合并通(tōng)過非線性傳播進而彙聚到最終生成的(de)特征中,如式(2.2)所示。在訓練神經網絡的(de)初始化(huà)步驟中,生成特征 S 的(de)順序會被随機打亂。此外,在實證研究中,Kelly, Malamud and Zhou (2022a, 2022b) 以及 Didisheim et al. (2023) 使用(yòng)了(le)一種被稱爲随機特征回歸的(de)神經網絡形式,從而确保滿足這(zhè)一假設。


2.3 複雜(zá)度(造成的(de))鴻溝


Didisheim et al. (2023) 從不同角度對(duì) Kelly, Malamud and Zhou (2022a) 進行了(le)擴展,并提出了(le)“複雜(zá)度鴻溝”的(de)概念,它被定義爲樣本内和(hé)樣本外表現的(de)期望差異(譯者注:難以逾越的(de)差異)。簡單來(lái)說,考慮實證模型不存在設定偏誤問題。在低複雜(zá)度(  )的(de)情況下(xià),根據大(dà)數定律可(kě)知,樣本内的(de)估計會收斂于真實模型。這(zhè)種收斂性保證了(le)模型的(de)樣本内表現能夠準确地反映其樣本外的(de)預期表現。也(yě)就是說,在低複雜(zá)度情況下(xià),樣本内和(hé)樣本外表現之間沒有差異。


但當  時(shí),由模型複雜(zá)度而帶來(lái)的(de)(譯者注:樣本内外表現之間的(de))鴻溝便開始出現,它由兩個(gè)部分(fēn)組成。複雜(zá)度使得(de)訓練出的(de)模型在樣本内的(de)可(kě)預測性程度高(gāo)于真實模型中可(kě)預測性的(de)程度 —— 這(zhè)是過度拟合的(de)傳統定義,也(yě)是鴻溝的(de)第一個(gè)組成部分(fēn)。另外,高(gāo)複雜(zá)度也(yě)意味著(zhe)缺少足夠的(de)數據(相對(duì)于其參數個(gè)數)來(lái)訓練模型,以期它來(lái)還(hái)原真實模型 —— 複雜(zá)度使得(de)大(dà)數定律在這(zhè)裏不再成立。這(zhè)是鴻溝的(de)第二個(gè)組成部分(fēn),即模型在樣本外的(de)表現要遜色于真實的(de)模型。這(zhè)種不足可(kě)以被視爲由于模型複雜(zá)度導緻的(de)“學習(xí)的(de)局限性”。複雜(zá)度鴻溝 —— 模型在樣本内和(hé)樣本外表現的(de)期望差異 —— 是過拟合和(hé)學習(xí)局限性共同作用(yòng)的(de)結果。


對(duì)于資産定價而言,複雜(zá)度鴻溝有一些重要的(de)啓示。對(duì)于已實現的(de)(可(kě)行的(de))預測  ,我們可(kě)以通(tōng)過随機矩陣理(lǐ)論來(lái)反推出“真實”(但不可(kě)行的(de))模型中可(kě)預測性的(de)程度。許多(duō)研究已經表明(míng),使用(yòng)機器學習(xí)模型可(kě)以獲得(de)顯著的(de)(正向)樣本外預測收益率預測,其中對(duì)于股票(piào)而言月(yuè)頻(pín)可(kě)預測性大(dà)約爲 1%。這(zhè)個(gè)實證結果,結合學習(xí)局限性的(de)理(lǐ)論推導,意味著(zhe)真實的(de)(不可(kě)行)預測  必須要高(gāo)的(de)多(duō)。同樣的(de),即使真實模型暗示存在無風險套利(或者簡單地說,非常高(gāo)的(de)夏普比率)機會,學習(xí)的(de)局限性也(yě)讓這(zhè)些機會對(duì)于現實世界的(de)投資者而言如同“水(shuǐ)中望月(yuè)”,難以觸及。在一個(gè)現實的(de)實證環境中,Didisheim et al. (2023) 指出,由于難以準确估計複雜(zá)的(de)統計關系,因此可(kě)獲得(de)的(de)夏普比率相對(duì)于已知真實 DGP 時(shí)所能獲得(de)的(de)夏普比率大(dà)約要低一個(gè)數量級。


Da, Nagel and Xiu (2022) 考慮了(le)一個(gè)特殊的(de)經濟環境,其中的(de)經濟主體(即套利者)采用(yòng)統計套利策略并試圖最大(dà)化(huà)他(tā)們樣本外的(de)夏普比率。這(zhè)些套利者在學習(xí) alpha 的(de)數據生成過程時(shí)也(yě)面臨統計難題(和(hé)上述“複雜(zá)度”類似)。Da, Nagel and Xiu (2022) 顯示,在特定的(de)低信噪比環境下(xià),無論套利者使用(yòng)哪種機器學習(xí)方法,他(tā)們都無法獲得(de)最優的(de)夏普比率(無法實現的(de))(譯者注:即套利者無法準确習(xí)得(de) DGP)。此外,即使套利者采用(yòng)最優的(de)可(kě)行交易策略,他(tā)們所獲得(de)的(de)夏普比率與最優(但無法實現)的(de)夏普比率之間仍然存在巨大(dà)的(de)差距。我們将在第 4.6 章(zhāng)中進一步討(tǎo)論上述論文的(de)細節。



參考文獻

Belkin, M. (2021). Fit without fear: remarkable mathematical phenomena of deep learning through the prism of interpolation. Acta Numerica 30, 203–248.

Belkin, M., D. Hsu, S. Ma, and S. Mandal (2018). Reconciling modern machine learning and the biasvariance trade-off. arXiv e-prints.

Box, G. E. and G. Jenkins (1970). Time Series Analysis: Forecasting and Control. San Francisco: Holden-Day.

Breiman, L. (1995). The mathematics of generalization. In: CRC Press. Chap. Reflections After Refereeing Papers for NIPS. 11–15.

Brown, T., B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei (2020). Language models are few-shot learners. In: Advances in Neural Information Processing Systems. Ed. by H. Larochelle, M. Ranzato, R. Hadsell, M. Balcan, and H. Lin. Vol. 33. Curran Associates, Inc. 1877–1901.

Da, R., S. Nagel, and D. Xiu (2022). The statistical limit of arbitrage. Working paper.

Didisheim, A., S. Ke, B. T. Kelly, and S. Malamud. (2023). Complexity in factor pricing models. Working paper.

Gu, S., B. T. Kelly, and D. Xiu (2020). Empirical asset pricing via machine learning. Review of Financial Studies 33(5), 2223–2273.

Hastie, T., A. Montanari, S. Rosset, and R. J. Tibshirani (2019). Surprises in high-dimensional ridgeless least squares interpolation. arXiv preprint arXiv:1903.08560.

Hornik, K., M. Stinchcombe, and H. White (1990). Universal approximation of an unknown mapping and its derivatives using multilayer feedforward networks. Neural Networks 3(5), 551–560.

Kelly, B. T., S. Malamud, and K. Zhou. (2022a). Virtue of complexity in return prediction. Working paper.

Kelly, B. T., S. Malamud, and K. Zhou. (2022b). The virtue of complexity everywhere. Working paper.



免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。