所有曆史數據都是樣本内
發布時(shí)間:2019-02-28 | 來(lái)源: 川總寫量化(huà)
作者:石川
摘要:我們構建策略靠的(de)不是站在回測起點往後看的(de)先見之明(míng),而是站在回測終點往前看的(de)後見之明(míng)。所有曆史數據都是樣本内。
1 引言
金融領域的(de)小夥伴想必對(duì) Institutional Investor Journals (II Journals) 并不陌生。它旗下(xià)有很多(duō)影(yǐng)響力很高(gāo)的(de)期刊,其中最著名的(de)大(dà)概是 Journal of Portfolio Management。與 JF、JFE、RFS 這(zhè)些純學術類期刊不同,II Journals 的(de)期刊更注重實踐,深得(de)業界喜愛(ài);而 Fischer Black、Robert Engle、Daniel Kahneman、Andrew Lo、William Sharpe、Robert Shiller 等大(dà)咖也(yě)均在 II Journals 的(de)期刊發表過研究。
2018 年 II Journals 更名爲 Institutional Portfolio Research Journals (IPR Journals),并于 2019 年爲旗下(xià)的(de)期刊系列增加了(le)一位最新成員(yuán) —— Journal of Financial Data Science。随著(zhe)大(dà)數據和(hé)機器學習(xí)算(suàn)法在金融和(hé)投資中的(de)潛在作用(yòng)越來(lái)越大(dà),這(zhè)本期刊的(de)誕生無疑是非常及時(shí)的(de)。它旨在指導金融領域的(de)實踐者正确使用(yòng)與日俱增的(de)數據和(hé)日新月(yuè)異的(de)技術。如今,該刊第一卷第一期已經發行。
作爲處女(nǚ)刊,它裏面包含了(le)很多(duō)非常有意思的(de)文章(zhāng)。其中最吸引我的(de)是一篇題爲 A Backtesting Protocol in the Era of Machine Learning(機器學習(xí)時(shí)代的(de)回測協議(yì))。它的(de)作者是 Rob Arnott、Campbell Harvey 以及 Harry Markowitz(三位都無需介紹)。在這(zhè)篇文章(zhāng)中,三位作者從七個(gè)方面提出了(le)新時(shí)代下(xià)進行策略回測時(shí)應該遵循的(de)一些規則,從而最大(dà)化(huà)的(de)降低數據挖掘和(hé)過拟合的(de)影(yǐng)響。這(zhè)七方面構成了(le)一個(gè)完整且可(kě)操作的(de)體系,能夠幫助我們更好的(de)規避樣本内的(de)虛假信号、找出能在樣本外更有效的(de)交易策略。這(zhè)七方面的(de)每一塊都值得(de)好好研讀一番(建議(yì)感興趣的(de)小夥伴找來(lái) Arnott, Harvey, and Markowitz 2019 這(zhè)篇文章(zhāng)讀一讀)。在今天的(de)文章(zhāng)中,我僅想對(duì)第四部分(fēn) Cross-Validation 裏面的(de)兩個(gè)論點談一些想法。在這(zhè)一部分(fēn),三位作者抛出了(le)兩個(gè)觀點:
1. Out of Sample is Not Really Out of Sample.
2. Iterated Out of Sample is Not Out of Sample.
這(zhè)兩句話(huà)結合起來(lái)再翻譯成中文就是所有曆史數據都是樣本内。我對(duì)此深以爲然。
2 OOS is NOT Really OOS
針對(duì) Out of Sample is Not Really Out of Sample 這(zhè)個(gè)觀點,Arnott, Harvey, and Markowitz (2019) 寫到:
Researchers have lived through the hold-out sample and thus understand the history, are knowledgeable about when markets rose and fell, and associate leading variables with past experience. As such, no true out-of-sample data exist; the only true out of sample is the live trading experience.
對(duì)于預留出來(lái)的(de)樣本外數據,它們也(yě)是已經發生過的(de)曆史。盡管模型将它們視作樣本外,但由于我們經曆了(le)那段曆史,知道在那段時(shí)間市場(chǎng)是如何發展的(de)(什(shén)麽時(shí)候漲、什(shén)麽時(shí)候跌),會不可(kě)避免的(de)把領先變量和(hé)這(zhè)些曆史經驗聯系起來(lái)。正是由于這(zhè)個(gè)原因,曆史數據中并沒有真正的(de)樣本外,隻有實盤交易才是真正的(de)樣本外。舉個(gè)例子。在因子選股中,我們通(tōng)常會用(yòng) PE、ROE、EPS 等指标來(lái)選股,并按照(zhào)各種邏輯 —— 比如動量或者估值 —— 進行難如登天的(de)因子擇時(shí)。在擇時(shí)的(de)時(shí)候,我們會非常小心的(de)使用(yòng)滾動窗(chuāng)口外推,利用(yòng) point in time 數據來(lái)避免 look-ahead bias(前視偏差)。但無論是在全部回測期内多(duō)因子選股,還(hái)是使用(yòng)滾動窗(chuāng)口在“樣本外”做(zuò)因子擇時(shí),這(zhè)背後無法否認的(de)事實是我們已經知道 PE、ROE、EPS 在過去整段曆史時(shí)間内是有效的(de)!
我們并不是在 10 年前就預見到了(le) PE、ROE、EPS 會有效并在過去的(de) 10 年裏使用(yòng)它們;而是在已經知道市場(chǎng)在過去 10 年是如何展開的(de)前提下(xià),通(tōng)過 empirical data analysis 找到了(le) PE、ROE、EPS 這(zhè)些好使的(de)因子然後再去對(duì)著(zhe)它們回測。扪心自問一下(xià),如果一個(gè)因子在回測期内的(de)表現是近似随機的(de),我們會用(yòng)它來(lái)做(zuò)因子擇時(shí)嗎?這(zhè)當然不是說它們并沒有業務依據,而隻是想強調正是因爲曆史已經發生了(le),因此它不是真正的(de)樣本外。
如果在樣本内找到的(de)因子在真正的(de)樣本外無效會在多(duō)大(dà)程度上削弱策略的(de)表現呢(ne)?來(lái)看下(xià)面的(de)實驗。假設回測期從 2010 年 1 月(yuè) 1 日到 2019 年 1 月(yuè) 31 日;以中證 500 的(de)成分(fēn)股爲股票(piào)池。針對(duì)每個(gè)因子,使用(yòng)其首尾各 10% 的(de)股票(piào)按照(zhào)等權構建多(duō)、空投資組合,以對(duì)沖後的(de)組合的(de)收益率作爲因子收益率,每月(yuè)末調倉且不考慮任何費用(yòng)。下(xià)圖顯示了(le)依照(zhào)上述說明(míng)後找到 10 個(gè)回測期内年化(huà)夏普率在 0.8 到 1.0 之間的(de)因子的(de)累積淨值(這(zhè)些因子均來(lái)自基本面或量價信息、月(yuè)收益率的(de)平均相關系數爲 0.1)。圖中黑(hēi)色粗線表示通(tōng)過等權配置這(zhè)些因子所構成的(de)多(duō)因子策略的(de)淨值。該多(duō)因子策略的(de)夏普率高(gāo)達 2.56,年化(huà)收益率 9.58%。
下(xià)面假設這(zhè) 10 個(gè)因子中的(de) n 個(gè)(n 取值從 1 到 10)在真實樣本外完全失效 —— 即樣本外該因子實際上無法預測收益率。爲了(le)模拟“真實樣本外完全失效”,我們從上述 10 個(gè)因子中随機選出 10 – n 個(gè)作爲有效因子,并随機生成 n 個(gè)因子來(lái)模拟那些失效的(de)因子,以此進行一次完整回測。爲了(le)得(de)到這(zhè) 10 個(gè)混合因子策略表現的(de)分(fēn)布,将上述過程進行 3000 次仿真,并考察回測期内每個(gè)時(shí)間點該策略累積淨值的(de)中位數、5% 分(fēn)位數以及 95% 分(fēn)位數。下(xià)圖依次展示了(le)當 n 從 1 取到 10 時(shí),混合多(duō)因子策略的(de)累積淨值。
從上述結果不難看出,随著(zhe)無效因子個(gè)數的(de)增加,策略表現的(de)“中樞”(中位數)逐漸下(xià)移,且不确定性(體現爲 5% 和(hé) 95% 分(fēn)位數的(de)淨值)逐漸增大(dà)。在整個(gè)回測期末,上述 10 種 n 取值的(de)策略表現總結于下(xià)表。對(duì)于樣本内有效的(de) 10 個(gè)因子,如果它們在真正的(de)樣本外全部失效(即無法預測收益率),那麽該策略淨值中位數爲零,這(zhè)符合我們的(de)預期。如果運氣沒那麽差,僅有 5 個(gè)無效,那麽年化(huà)收益率的(de)中位數爲 4.69%;相比較樣本内下(xià)降了(le) 45.7%。
依照(zhào)上述實驗思路也(yě)可(kě)以對(duì)一些常見的(de)因子擇時(shí)思路進行驗證。下(xià)面以主流的(de)按因子動量擇時(shí),每年配置過去一年漲幅最高(gāo)的(de)五個(gè)因子。使用(yòng)全部 10 個(gè)樣本内有效的(de)因子,加之上述擇時(shí)策略,得(de)到的(de)效果如下(xià),因子擇時(shí)年化(huà)收益率爲 11.21%,超過了(le) 10 個(gè)因子等權配(夏普率沒有超過)。
同樣的(de),假設 n 個(gè)因子在真實樣本外失效,來(lái)看看對(duì)該擇時(shí)策略的(de)影(yǐng)響。
和(hé)不擇時(shí)相似,随著(zhe)失效因子個(gè)數的(de)增加,策略中位數表現下(xià)移、不确定性加大(dà)。如果把擇時(shí)策略和(hé)之前的(de)不擇時(shí)策略橫向比較一下(xià)(即考慮給定失效因子個(gè)數 n 下(xià)兩個(gè)策略的(de)表現),可(kě)以發現有意思的(de)結果:樣本内有效的(de)擇時(shí)策略在樣本外的(de)中樞同樣優于不擇時(shí)的(de)策略,但代價是更高(gāo)的(de)波動;這(zhè)個(gè)高(gāo)波動是由因子失效和(hé)擇時(shí)失效兩方面的(de)不确定性共同貢獻的(de)。
3 Iterated OOS is NOT OOS
再來(lái)看看 Iterated Out of Sample is Not Out of Sample。對(duì)此,Arnott, Harvey, and Markowitz (2019) 寫到:
Suppose a model is successful in the in-sample period but fails out of sample. The researcher observes that the model fails for a particular reason. The researcher modifies the initial model so it then works both in sample and out of sample. This is no longer an out-of-sample test. It is overfitting.
在《科學回測中的(de)大(dà)學問》一文中,我們表達過完全一緻的(de)觀點:
在可(kě)交易特征方面,滿足一個(gè)策略假設的(de)樣本其實很少。舉個(gè)極端的(de)例子,比如 A 股中追蹤大(dà)牛市的(de)趨勢類策略。在過去 20 年中,也(yě)僅有三波牛市,而且它們表現出來(lái)的(de)市場(chǎng)特征均不相同(比如以 2007 年大(dà)牛市構建的(de)趨勢追蹤策略在 2015 年大(dà)牛市中的(de)逃頂效果并不好)。在這(zhè)種情況下(xià),如果還(hái)把數據分(fēn)成訓練集和(hé)測試集會怎樣呢(ne)?我們一定會把策略在測試集中的(de)體現出來(lái)的(de)新市場(chǎng)環境反饋到訓練過程中,這(zhè)已經違背了(le)分(fēn)訓練集和(hé)測試集調參的(de)本意;這(zhè)等價于我們在整個(gè)曆史數據中對(duì)策略的(de)參數調優了(le)。
來(lái)看一個(gè)簡單的(de)例子 —— 針對(duì)滬深 300 指數使用(yòng)雙均線擇時(shí)。假設使用(yòng) 2005 年 1 月(yuè) 1 日到 2011 年 12 月(yuè) 31 日作爲樣本内數據;使用(yòng) 2012 年 1 月(yuè) 1 日到 2019 年 2 月(yuè) 25 日爲“樣本外”數據。在樣本内,使用(yòng) 2 天窗(chuāng)口計算(suàn)快(kuài)均線、40 天窗(chuāng)口計算(suàn)慢(màn)均線效果非常理(lǐ)想(下(xià)圖),其年化(huà)收益率超過 30%,夏普率高(gāo)達 1.3。
再來(lái)看看這(zhè)組參數在“樣本外”的(de)表現。不幸的(de)是,該策略在樣本外的(de)年化(huà)收益不到 8%、最大(dà)回撤 -25.95%、夏普率僅有 0.51。
如果對(duì)著(zhe)“樣本外”搜參數,則最優的(de)快(kuài)、慢(màn)均線窗(chuāng)口參數是 20 和(hé) 24,其夏普率也(yě)僅有 0.70,遠(yuǎn)遠(yuǎn)差于 2012 年之前的(de)表現。考慮到這(zhè)種情況,很自然的(de)想法就是添加更複雜(zá)的(de)邏輯來(lái)提高(gāo) 2012 年之後的(de)表現。顯然,這(zhè)不是樣本外測試,而是過拟合。無論從獨立性還(hái)是可(kě)交易特征而言,交易數據其實都是十分(fēn)匮乏的(de)。從構建策略的(de)角度來(lái)說,如果要求策略能夠适應不同的(de)市場(chǎng)狀态,那麽基于曆史數據不斷叠代的(de)樣本外并不是真正的(de)樣本外。
4 結語
所有的(de)曆史數據都是樣本内。我們構建策略靠的(de)不是站在回測起點往後看的(de)先見之明(míng),而是站在回測終點往前看的(de)後見之明(míng)。誠然,這(zhè)并不意味著(zhe)策略就不靠譜或者一定是數據挖掘的(de)産物(wù)。但是,意識到這(zhè)一點會讓我們更加相信來(lái)自金融學或經濟學先驗的(de)指标或因果關系,并防止我們沉迷于純粹基于數據的(de)交叉驗證。
AQR 曾寫過一篇題爲 Buffett's Alpha 的(de)文章(zhāng)分(fēn)析巴菲特的(de)投資組合。結果顯示,巴菲特投資組合的(de)收益幾乎可(kě)以被市場(chǎng)因子和(hé)五個(gè)如今我們這(zhè)些後見之明(míng)的(de)凡夫俗子能夠理(lǐ)解的(de)風格因子的(de) β 來(lái)解釋。而反觀巴菲特,他(tā)是在幾十年前就按照(zhào)這(zhè)些風格因子來(lái)投資了(le),那是真正的(de)樣本外。
Buffett figured out things we think are genius many years before we all did. —— Cliff Asness
參考文獻
Arnott, R., C. R. Harvey, and H. Markowitz (2019). A backtesting protocol in the era of machine learning. Journal of Financial Data Science 1(1), 64 – 74.
免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。