Being Honest with Backtest Reporting
發布時(shí)間:2021-08-02 | 來(lái)源: 川總寫量化(huà)
作者:石川
摘要:比起傳統定義下(xià)的(de)動量,FF3-α 動量能夠獲得(de)顯著的(de)超額收益。然而這(zhè)背後又藏著(zhe)哪些不爲人(rén)知的(de)真相?、
1
由多(duō)因子模型定義可(kě)知,股票(piào)的(de)超額收益可(kě)以分(fēn)解爲特質部分(fēn)以及被因子解釋的(de)部分(fēn)。如果使用(yòng)特質收益率計算(suàn)動量,就構成了(le) α 動量。Hühn and Scholz (2018) 指出以 Fama and French (1993) 三因子(FF3)爲基準計算(suàn)的(de) FF3-α 動量在美(měi)股上有很好的(de)效果。此外,相比于傳統的(de)動量,α 動量背後的(de)邏輯是投資者對(duì)公司特質信息的(de)反應不足所緻,因此更加持續;且由于剔除了(le)對(duì)常見因子的(de)暴露,α 動量比傳統動量波動更低。
下(xià)面我們看看 FF3-α 動量在 A 股上的(de)表現怎麽樣。爲了(le)構造 FF3-α 動量因子,利用(yòng)過去一段時(shí)間個(gè)股日超額收益對(duì) FF3 的(de)因子超額收益回歸,得(de)到其超額收益 α,并将其作爲構造 FF3-α 動量因子的(de)變量:
使用(yòng)自 2017/01/01 到 2021/06/30 近 5 年的(de)實證窗(chuāng)口;股票(piào)池爲從所有在市交易的(de)股票(piào)中剔除掉黑(hēi)名單(包括待退市股票(piào)、淨資産爲負股票(piào)、風險警示股票(piào)和(hé)次新股等)和(hé)不可(kě)交易股票(piào)(包括停牌股和(hé)一字漲跌停股票(piào)等)之後的(de)剩餘股票(piào),并剔除異常值(詳細處理(lǐ)方法請參考《因子投資:方法與實踐》的(de) 3.1 節)。在每月(yuè)末,使用(yòng) T – 13 到 T – 2(即剔除最近 1 個(gè)月(yuè))的(de)數據計算(suàn) FF3-α,通(tōng)過 portfolio sort 構造因子多(duō)空對(duì)沖組合,其中多(duō)頭和(hé)空頭均按照(zhào)市值加權。在實證窗(chuāng)口内,上述 FF3-α 動量的(de)月(yuè)均超額收益爲 2.05%,因子累計收益曲線如下(xià)圖所示。
由上述介紹可(kě)知,α 動量理(lǐ)論似乎基礎清晰,在 A 股中的(de)實證結果也(yě)算(suàn)給力,看上去是一個(gè)能夠取代傳統動量的(de)合格因子。看到這(zhè)裏,細心地小夥伴可(kě)能品出了(le)上面這(zhè)句話(huà)中的(de)關鍵詞:“似乎”,“也(yě)算(suàn)”,“看上去”。而且,公衆号的(de)老朋友也(yě)許會感到困惑,因爲最近幾年在檢驗因子和(hé)異象的(de)文章(zhāng)中,我幾乎不再使用(yòng)累計收益曲線圖了(le),取而代之的(de)是用(yòng)檢驗結果的(de)表格。然而,上面實證分(fēn)析連 t-statistic 都沒有給出。這(zhè)很不“川總寫量化(huà)”。沒錯,接下(xià)來(lái)的(de)内容才是本文的(de)重點,我們就來(lái)盤一盤 FF3-α 動量誕生之路上的(de)三宗罪。
2
先說第一宗。John Cochrane 曾說過:Every important number should include a standard error。在上面的(de)檢驗中,FF3-α 因子的(de)月(yuè)均收益率無疑是我們的(de)目标,但是卻隻給出了(le)均值(2.05%)而沒有給出 standard error(或者 t-statistic),取而代之的(de)試圖利用(yòng)一條持續上行的(de)累計收益曲線來(lái)傳遞出它很不錯的(de)信号。沒有計算(suàn) standard error 就是第一宗罪。
通(tōng)過計算(suàn)可(kě)知,其經過 Newey and West (1987) 調整後的(de) t-statistic 爲 3.06,超過了(le) Harvey, Liu, and Zhu (2016) 提出的(de) 3.0 阈值。面對(duì)這(zhè)個(gè)檢驗結果(而非一條累計收益曲線),我們似乎終于能松了(le)一口氣。但是,我沒有告訴你的(de)是,如果不使用(yòng) Newey and West (1987) 調整,那麽該因子月(yuè)均收益率的(de) t-statistic 隻有 2.70,小于 3.0 阈值。另一個(gè)我向你隐瞞的(de)參數是,計算(suàn) Newey and West (1987) 時(shí)使用(yòng)的(de)滞後期數。下(xià)表顯示了(le)不同滞後期(L)取值下(xià),該 FF3-α 動量因子月(yuè)均超額收益的(de) t-statistic 取值。結果說明(míng),我們可(kě)以通(tōng)過改變 L 的(de)取值來(lái)操縱 t-statistic,使之滿足我們需要的(de)阈值。
然而,如果我不告訴你這(zhè)些呢(ne)?事實上,t-statistic = 3.06 對(duì)應的(de)是 L = 3,而 3 這(zhè)個(gè)取值是根據 Newey and West (1994) 的(de)算(suàn)法得(de)到的(de)。因此,如果在行文中使用(yòng)“考慮到因子收益率的(de)自相關和(hé)異方差,使用(yòng) Newey and West (1987) 調整 standard error 并計算(suàn) t-statistic,在計算(suàn)中根據 Newey and West (1994) 确定滞後期 L”将顯得(de)非常自然以及合情合理(lǐ),不會給人(rén)數據操縱的(de)感受。而另一方面,如果我需要的(de)滞後期爲 L 等于 4 或者 5,上述措辭又可(kě)以被“合情合理(lǐ)地”改爲“遵循使用(yòng)月(yuè)頻(pín)收益率進行實證研究的(de)慣例,取 L = 4(或者 5)”。
一切都是那麽的(de)自然。
盡管對(duì) t-statistic 的(de)操縱已經令人(rén)尴尬,但這(zhè)個(gè)第一宗罪僅僅是最初級的(de)問題。
下(xià)面來(lái)說第二宗。實證窗(chuāng)口到底是怎麽選的(de)?爲什(shén)麽實證窗(chuāng)口從 2017/01/01 開始,而不是更早?爲什(shén)麽因子多(duō)空組合用(yòng)市值加權,而不是等權?答(dá)案分(fēn)别是(1)在 2017/01/01 之前,FF3-α 動量因子不好使;(2)使用(yòng)等權後,FF3-α 動量因子不好使。因此,第二宗罪就是:Hypothesizing After the Results are Known(HARKing),即先看數據,後提出假設。如果我們希望粉飾數據窗(chuāng)口的(de)選擇,那麽找一些理(lǐ)由似乎并不困難,比如從 2017/01/01 之後,投資者結構發生了(le)變化(huà),機構投資者占比上升;而如果我們想要掩飾股票(piào)權重的(de)選擇,也(yě)可(kě)以冠冕堂皇的(de)說出于流動性的(de)考慮按照(zhào)市值加權而非等權,而刻意選擇性失憶忽視過去幾年大(dà)市值跑赢小市值的(de)事實。
寫到這(zhè)裏,我想強調的(de)是,投資者結構變化(huà)導緻因子表現變化(huà)以及按照(zhào)市值加權構造因子組合 per se 都是合理(lǐ)的(de)。但在我們的(de)場(chǎng)景下(xià),如果僅僅彙報能夠獲得(de)最顯著結果的(de)實證設定,而隐瞞其他(tā)設定下(xià)的(de)結果,那無疑是不負責任的(de)。Eugene Fama 曾說“實證研究其實就是 data description,當你完成實證研究之後,你總是希望收集新的(de)數據來(lái)驗證觀點。”這(zhè)是一種值得(de)學習(xí)的(de)态度。下(xià)表給出了(le)不同實證窗(chuāng)口内,分(fēn)别按照(zhào)等權和(hé)市值加權計算(suàn)的(de) FF3-α 月(yuè)均超額收益檢驗結果。不出意外的(de)是,隻有在本文第一節選擇的(de)實證設定(2017/01/01 開始且市值加權)下(xià),FF3-α 月(yuè)均超額收益才是顯著的(de),而其他(tā)實證設定則全軍覆沒。彙報不同設定下(xià)的(de)結果而非 HARKing,能夠幫助我們更加客觀的(de)評判這(zhè)個(gè)因子并在樣本外使用(yòng)這(zhè)個(gè)它。
上面兩宗罪體現出的(de)數據操縱足以令人(rén)不安,但它們和(hé)最後一宗罪比起來(lái)隻能算(suàn)是小巫見大(dà)巫。因爲無論是計算(suàn) t-statistic 還(hái)是選擇實證設定,上述結果似乎都在傳遞出一個(gè)假象,即我們在進行 single hypothesis test —— 似乎我們從一個(gè)合理(lǐ)的(de)金融學依據出發,提出了(le) α 動量,然後進行實證分(fēn)析。然而,找到 FF3-α 動量背後的(de)真相其實是,我們嘗試了(le) 8 個(gè)改造後的(de)動量因子,然後從中精挑細選出了(le)最好的(de)一個(gè),即 FF3-α。除 FF3-α 外,其他(tā) 7 個(gè)因子包括:傳統動量、距離最高(gāo)點距離、未實現盈利值、動量加速度、特質動量、累計異常收益、左尾動量以及相似動量。在本文第一節的(de)實證設定下(xià),這(zhè)些動量的(de)月(yuè)均超額收益檢驗結果如下(xià)表所示。
毫無疑問,從上述變量中挑出 FF3-α 動量并不困難;雖然其顯著性略遜累計異常收益一籌,但其高(gāo)達 2.05% 的(de)月(yuè)均收益率比起累計異常收益的(de) 0.72% 要高(gāo)得(de)多(duō)(因此經濟意義上更加顯著),且累計異常收益是一個(gè) PEAD 類的(de)因子。所以綜合考慮,FF3-α 脫穎而出。試了(le) 8 個(gè),卻隻挑出了(le)最好的(de),這(zhè)無疑是 multiple hypothesis testing(MHT)。然而,如果我們隻像第一節那樣介紹 FF3-α 動量而對(duì)試過的(de)其他(tā) 7 個(gè)諱莫如深,就會給人(rén)一種 single hypothesis testing 的(de)錯覺,這(zhè)就是如今學界大(dà)力呼籲的(de) p-hacking 問題。隻有如實彙報全部 8 個(gè)因子,才能夠在合理(lǐ)的(de) MHT 框架下(xià)對(duì)結果進行修正(當然,面對(duì)原始的(de) t-statistic,依然有前面兩宗罪的(de)問題)。
p-hacking 就是第三宗罪。
如果你和(hé)我一樣也(yě)關注了(le) [Chihiro Quantitative Research] 公衆号,那麽一定發現了(le)今天的(de)文章(zhāng)使用(yòng)的(de)是連長(cháng)最新文章(zhāng)《動量 Plus(上)》裏面的(de)數據。在這(zhè)裏我特地給連長(cháng)打個(gè) call,該文計算(suàn)了(le) standard errors,如實彙報了(le)上述 8 個(gè)因子和(hé)傳統動量(一共 9 個(gè)因子)在不同窗(chuāng)口内以及等權和(hé)市值加權下(xià)的(de)檢驗結果。這(zhè)是應有的(de)研究态度。我在本文中的(de)分(fēn)析僅僅是使用(yòng)他(tā)的(de)實證數據借花獻佛。
3
我曾經非常糾結于本文的(de)标題,因爲它肯定會劇透,從而讓行文中的(de)反轉效果打些折扣(其它曾經使用(yòng)的(de)題目就包括 FF3-α 動量),但最終還(hái)是保留了(le) Being Honest with Backtest Reporting 這(zhè)個(gè)标題(但我盡量讓摘要顯得(de)不那麽直接),這(zhè)是本文希望傳遞出的(de)态度。而這(zhè)個(gè)标題也(yě)是借鑒了(le) Fabozzi and Lopez de Prado (2018) 發表在 Journal of Portfolio Management 上的(de)同名文章(zhāng)。(我也(yě)要 be honest with my title picking。)爲了(le)降低 MHT 的(de)影(yǐng)響,該文主張在回測中如實彙報如下(xià)幾點:
Family of trials
Family size
Familywise error rate (FWER)
Power of the test
Robustness analysis
其中 family of trails 和(hé) family size 可(kě)以理(lǐ)解爲嘗試次數(或變量個(gè)數)以及嘗試的(de)有明(míng)顯差異的(de)實驗(或變量)的(de)個(gè)數,具體解釋見截圖如下(xià)。
由本文關于改造動量因子的(de)例子可(kě)知,僅彙報通(tōng)過數據操縱得(de)到的(de)最顯著結果是不負責任的(de),而上述 checklist 能夠從一定程度上幫助規避文中提到的(de)幾宗罪,讓我們對(duì)實證結果更加安心。最後,本文和(hé) Fabozzi and Lopez de Prado (2018) 都傳遞出和(hé) Campbell Harvey 教授的(de)《Tortured Data》同樣的(de)觀點:“數據不會發聲,而是進行數據分(fēn)析的(de)人(rén)通(tōng)過數據發聲。而在這(zhè)背後,又有多(duō)少不同的(de)動機、原因、理(lǐ)由來(lái)追求人(rén)們希望看到的(de)結論,或者希望講述的(de)故事呢(ne)?”
Be honest with your backtest reporting.
參考文獻
刀(dāo)疤連,動量 Plus(上),https://mp.weixin.qq.com/s/_LBmaL2JRdARCZg4Ce7UAA
Fabozzi, F. J. and M. Lopez de Prado (2018). Being honest in backtest reporting: A template for disclosing multiple tests. Journal of Portfolio Management 45(1), 141 – 147.
Fama, E. F. and K. R. French (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics 33(1), 3 – 56.
Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies 29(1), 5 – 68.
Hühn, H. L. and H. Scholz (2018). Alpha momentum and price momentum. International Journal of Financial Studies 6(2), 49.
Newey, W. K. and K. D. West (1987). A simple, positive semi-definite, heteroskedasticity and autocorrelation consistent covariance matrix. Econometrica 55(3), 703 – 708.
Newey, W. K. and K. D. West (1994). Automatic lag selection in covariance matrix estimation. Review of Economic Studies 61(4), 631 – 653.
免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。