出色不如走運 (VIII)?
發布時(shí)間:2022-10-08 | 來(lái)源: 川總寫量化(huà)
作者:石川
摘要:Kosowski et al. (2006)、Fama and French (2010) 以及 Harvey and Liu (2022)。
1
年初基金研究文獻綜述中曾提到,研究基金能否提供了(le)顯著的(de)超額收益是該領域中最重要的(de)問題。在這(zhè)方面,最著名的(de)兩篇文章(zhāng) Kosowski et al. (2006) 和(hé) Fama and French (2010)(以下(xià)分(fēn)别稱 KTWW 和(hé) FF)通(tōng)過類似的(de)方法(均采用(yòng) bootstrap),卻得(de)出了(le)相反的(de)結論。KTWW 認爲有超過 10% 的(de)基金不能被運氣解釋;而另一方面,FF 則表示這(zhè)個(gè)比例不會超過 1%。面對(duì)如此的(de)反差,究竟孰對(duì)孰錯?又或者二者皆有所短?回顧兩篇文章(zhāng),KTWW 對(duì)每個(gè)基金獨立進行 bootstrap,而 FF 則對(duì)基金收益率的(de) cross-section 進行 bootstrap 從而保留截面相關性。此外,前者考察的(de)基金被要求有至少 60 個(gè)收益率的(de)觀測數據;而在後者中,這(zhè)一要求被降低到 8 個(gè)。
顯然,最小數據量要求以及 bootstrap 做(zuò)法的(de)差異是造成二者出現截然不同結論的(de)原因。從結果來(lái)看,KTWW 的(de)方法過度拒絕原假設(原假設是所有基金都沒有超額收益),使得(de)在哪怕在所有基金都沒有超額收益的(de)情況下(xià)依然拒絕原假設。反觀 FF 的(de)做(zuò)法,其會導緻 bootstrapped 檢驗統計量分(fēn)布呈現厚尾從而造成原假設難以被拒絕,因此哪怕存在能夠取得(de)超額收益的(de)基金的(de)情況下(xià),該方法依然會接受原假設。
既然二者都不完美(měi),那麽有沒有可(kě)能在它們的(de)基礎上改進并得(de)到更好的(de)檢驗方法、從而更加有效地回答(dá)這(zhè)個(gè)問題呢(ne)?這(zhè)意味著(zhe)我們既要在 bootstrap 時(shí)保留截面相關性,又要杜絕 bootstrapped 檢驗統計量分(fēn)布呈現厚尾的(de)問題。在這(zhè)方面,Harvey and Liu (2022) 給出了(le)答(dá)案。
2
本節首先介紹 FF 中檢驗統計量分(fēn)布的(de)厚尾現象。
Bootstrap 是研究此類問題的(de)一個(gè)常規手段。而我們知道,在實證窗(chuāng)口内,并不是所有基金在全部月(yuè)份都有收益率數據,有的(de)基金年限長(cháng),有些基金則年限短。在 KTWW 中,作者對(duì)每個(gè)基金利用(yòng)其實際收益率序列分(fēn)别采樣;而在 FF 中,作者在實證窗(chuāng)口内的(de)任何時(shí)點在 cross-section 采樣,這(zhè)意味著(zhe)采樣出來(lái)的(de)一些基金可(kě)能是沒有收益率數據的(de)。這(zhè)樣做(zuò)造成的(de)後果是,對(duì)于任何一個(gè)基金來(lái)說,其在某個(gè) bootstrapped 樣本中的(de)收益率觀測數據量和(hé)其在實際樣本中收益率的(de)觀測數據量很可(kě)能不同。有些基金會被 oversampled(bootstrapped 樣本中觀測數據 > 實際觀測數據),一些基金則會被 undersampled(bootstrapped 樣本中觀測數據 < 實際觀測數據)。FF 認爲,保留 cross-section 相關性是更加重要的(de)考量,所以上面的(de)後果是可(kě)以接受的(de),此外被 oversampled 和(hé)被 undersampled 的(de)基金的(de)影(yǐng)響會相互抵消,因此不是什(shén)麽太大(dà)的(de)問題。此外,爲了(le)防止本來(lái)曆史收益率數據就很短的(de)基金在 bootstrapped 樣本中缺少足夠的(de)數據,FF 要求隻有當一個(gè)基金在 bootstrapped 樣本中有不少于 8 個(gè)不同的(de)收益率觀測數據時(shí),才被納入分(fēn)析。
Harvey and Liu (2022) 通(tōng)過實證分(fēn)析指出,FF 口中的(de)“不是什(shén)麽太大(dà)的(de)問題”恰恰就是問題所在。簡單來(lái)說,問題可(kě)以歸結爲:對(duì)于任何基金,bootstrapped 樣本中都會出現 undersampling 和(hé) oversampling 的(de)情況;但是對(duì)于那些收益率數據本來(lái)就很短的(de)基金來(lái)說,undersampling 和(hé) oversampling 的(de)影(yǐng)響是不對(duì)稱的(de),undersampling 的(de)影(yǐng)響大(dà)到足以影(yǐng)響整個(gè) bootstrapped 檢驗統計量的(de)分(fēn)布,即呈現厚尾。
3
爲了(le)定量分(fēn)析 KTWW 和(hé) FF 的(de)問題,Harvey and Liu (2022) 設計了(le)一個(gè)巧妙的(de) simulation design。之所以使用(yòng) simulation,是因爲 Harvey and Liu (2022) 希望模拟 data generating process。在定量分(fēn)析中用(yòng)到的(de)統計術語如下(xià)表所示。下(xià)面的(de)介紹會重點關注兩種方法的(de) test size。
這(zhè)裏插一句,Harvey and Liu (2022) 的(de) simulation design 和(hé) Harvey and Liu (2021) 異曲同工,它們都可(kě)以被視作 Harvey and Liu (2020) 裏設計的(de) double bootstrap simulation 的(de)基礎。沒看過 Harvey and Liu (2020, 2021) 的(de)小夥伴,請參考《出色不如走運(V)》和(hé)《出色不如走運(VI)》。上述兩篇推文對(duì)它們有詳細介紹。三篇放在一起看一定會加深對(duì)這(zhè)類 design 的(de)理(lǐ)解。
Simulation 一共分(fēn)爲五步,下(xià)面通(tōng)過一個(gè)示例依次說明(míng)。
第一步(下(xià)圖左)和(hé)第二步(下(xià)圖右):
假設實際數據中一共有 8 支基金和(hé) 15 期收益率,其中 4 支基金有全部 15 期數據,而其他(tā)基金的(de)數據則不完整,實際收益率數據由
第三步(下(xià)圖左)和(hé)第四步(下(xià)圖右):
對(duì)
這(zhè)裏再插一句,個(gè)人(rén)認爲,這(zhè)裏
第五步:
根據設計,在上述第四步中得(de)到的(de)
從上述描述可(kě)知,通(tōng)過給定
對(duì)于我們關注的(de) test size 來(lái)說(回顧一下(xià)本節一開始的(de)那張統計術語表,test size 可(kě)以理(lǐ)解爲 type I error rate),通(tōng)過在 simulation 中設定
上圖中,左圖是 KTWW 的(de)結果,右圖是 FF 的(de)結果;我們隻需關注藍色實線即可(kě)(它們是基于
然而,KTWW 的(de) test size 明(míng)顯高(gāo)于 10% 的(de)水(shuǐ)平,說明(míng)它的(de) type I error rate 很高(gāo),即更有可(kě)能錯誤地拒絕原假設。因此 KTWW 是 oversized。反觀 FF,其 test size 要明(míng)顯低于 10% 的(de)水(shuǐ)平,說明(míng)其 type I error rate 更低,即更有可(kě)能接受原假設,因此 FF 是 undersized。上述結果翻譯成“人(rén)話(huà)”就是:KTWW 的(de)方法更容易拒絕原假設,即認爲作爲一個(gè)整體基金能夠獲得(de)顯著超額收益;而 FF 的(de)方法更容易接受原假設,即認爲作爲一個(gè)整體基金無法獲得(de)顯著超額收益。
4
至此,Harvey and Liu (2022) 定量分(fēn)析了(le) KTWW 和(hé) FF 的(de)問題。基于他(tā)們的(de)分(fēn)析,我們可(kě)以猜測針對(duì) FF 最直觀的(de)“改進”方法是提高(gāo)基金最少收益率期數的(de)約束(比如從 8 提升到和(hé) KTWW 一樣的(de) 60 期),從而徹底杜絕 undersampling 問題對(duì) bootstrapped 檢驗統計量分(fēn)布的(de)影(yǐng)響。不過這(zhè)個(gè)約束的(de)收緊意味著(zhe)大(dà)量的(de)基金将被排除在分(fēn)析之外。
爲此,Harvey and Liu (2022) 提出了(le)另一個(gè)改進方法:FF 阈值法。首先,考察所有至少有 12 期數據的(de)基金。對(duì)于這(zhè)些基金,分(fēn)别進行 bootstrap 采樣得(de)到每個(gè)基金各自超額收益 t-statistic 的(de)第一和(hé)第三四分(fēn)位數(分(fēn)别記爲
在得(de)到每個(gè)基金的(de)範圍後,依照(zhào) FF 的(de)方法進行 bootstrap。對(duì)于每個(gè) bootstrapped 樣本中的(de)基金,如果其 bootstrapped t-statistic 不在上述範圍之内,則從該樣本中剔除掉該基金,并利用(yòng)剩餘的(de)基金進行計算(suàn)。這(zhè)就是 FF 阈值法的(de)核心思路。最後,Harvey and Liu (2022) 采用(yòng)了(le)他(tā)們設計的(de) simulation design 來(lái)确定阈值
以上就是對(duì) Harvey and Liu (2022) 的(de)簡要介紹。當然,這(zhè)篇文章(zhāng)中還(hái)有太多(duō)的(de)細節和(hé)分(fēn)析,值得(de)反複閱讀。(該文在 JF 官網上是 open access。)
5
Harvey and Liu (2022) 爲回答(dá)基金 as a whole 是否提供了(le)顯著的(de)超額收益提供了(le)新的(de)解決思路。雖然這(zhè)次是站在基金而非異象視角,但該文無疑是金融學在應對(duì)多(duō)重假設檢驗問題時(shí)的(de)又一力作,也(yě)是兩位作者将他(tā)們的(de) research agenda 向前延伸的(de)又一個(gè)裏程碑。
寫到這(zhè)裏,本文本該自然地結束。但既然談到了(le)多(duō)重假設檢驗這(zhè)個(gè)話(huà)題,我忍不住多(duō)唠叨兩句。對(duì)于金融經濟學,自 Cochrane 提出 zoo of factors 三問之後,多(duō)重假設檢驗的(de)研究可(kě)以至少追溯到 Harvey, Liu, and Zhu (2016) 以及 Harvey (2017)。這(zhè)些文章(zhāng)關注的(de)問題是在多(duō)重假設檢驗問題下(xià),有多(duō)少異象可(kě)能是虛假的(de),以及如何改進檢驗手段從而避免挖出虛假的(de)協變量。盡管就結論聞言,這(zhè)兩篇文章(zhāng)的(de)觀點“不得(de)”學界人(rén)心(畢竟沒人(rén)願意承認自己過去挖出來(lái)的(de)東西是 p-hacking 出來(lái)的(de)),但它們的(de)計算(suàn)是科學的(de)、措辭是客觀的(de)。至此之後,學界也(yě)更加重視 p-hacking 問題,很多(duō)新的(de)方法被提出;更多(duō)的(de) data/code sharing policy 被執行。
然而大(dà)概從兩年前,學界就之前挖出的(de)異象到底能否被複制(能複制說明(míng) p-hacking 問題不那麽嚴重)的(de)觀點似乎發生了(le)變化(huà)。這(zhè)方面包括 Bryan Kelly 爲作者之一撰寫的(de) Is there a replication crisis in finance? 一文,還(hái)有另外一位就是我不想提但不得(de)不提的(de) Andrew Chen。簡單地說,Chen 的(de)觀點是學界的(de) p-hacking 問題遠(yuǎn)沒有 Harvey and Liu 說的(de)那麽嚴重,僅僅靠 p-hacking 根本找不到這(zhè)麽多(duō) in-sample 顯著的(de)異象,因此後者有些危言聳聽(tīng)。關于 Chen 和(hé) Harvey and Liu 的(de)“硬扛”,《出色不如走運(VI)》有過詳細的(de)介紹,此處不再贅述。我在那篇文章(zhāng)裏表達出的(de)觀點依舊(jiù)是中立的(de):
“關于 p-hacking 問題有多(duō)嚴重,學術界以開放的(de)心态來(lái)討(tǎo)論它至關重要。從這(zhè)個(gè)意義上說,本文介紹的(de) Chen (2021) 和(hé) Harvey and Liu (2021) 沒有誰對(duì)誰錯,都是有益的(de)討(tǎo)論,讓我們可(kě)以從不同的(de)視角立體地審視這(zhè)個(gè)問題。”
可(kě)後來(lái)不經意間,發現 Chen 真的(de)是鐵了(le)心地要和(hé) Harvey 在這(zhè)個(gè)問題上掰掰手腕。這(zhè)不僅僅局限在發表學術論文這(zhè)種正當途徑,甚至還(hái)延伸到了(le)在 twitter 上的(de)人(rén)身攻擊。以下(xià)兩張截圖是兩人(rén)的(de)對(duì)話(huà),一來(lái)一回,高(gāo)下(xià)立判。
真的(de)是看不下(xià)去。對(duì)于金融經濟學來(lái)說,多(duō)重假設檢驗問題到底有多(duō)麽嚴重?發表的(de)異象有多(duō)少比例是虛假的(de)?對(duì)于那些真實的(de)異象來(lái)說,樣本外的(de)打折程度又是多(duō)少?如何在考慮 Type II error 的(de)前提下(xià)确定 t-statistic 阈值?如何根據先驗知識和(hé)所研究的(de)數據特點确定合适的(de) t-statistic 阈值?等等。這(zhè)些全都是至關重要的(de)問題。Harvey and Liu 的(de)多(duō)篇論文對(duì)上述問題均有正面回答(dá)。而從這(zhè)些背後我們感受到的(de)是持之以恒的(de)研究和(hé)始終如一的(de)态度。而 Chen 呢(ne)?
這(zhè)不禁讓我想起了(le)一句名言:
"If you really want to do something, you will find a way. If you don't, you will find an excuse."
在多(duō)重假設檢驗問題上,Harvey and Liu find a way. Chen, however, finds an excuse.
參考文獻
Fama, E. F. and K. R. French (2010). Luck versus skill in the cross-section of mutual fund returns. Journal of Finance 65(5), 1915 – 1947.
Harvey, C. R. (2017). Presidential address: The scientific outlook in financial economics. Journal of Finance 72(4), 1399 – 1440.
Harvey, C. R. and Y. Liu (2020). False (and missed) discoveries in financial economics. Journal of Finance 75(5), 2503 – 2553.
Harvey, C. R. and Y. Liu (2021). Uncovering the iceberg from its tip: A model of publication bias and p-hacking. Working paper.
Harvey, C. R. and Y. Liu (2022). Luck versus skill in the cross section of mutual fund returns: Reexamining the evidence. Journal of Finance 77(3), 1921 – 1966.
Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies 29(1), 5 – 68.
Kosowski, R., A. Timmermann, R. Wermers, and H. White (2006). Can mutual fund “stars” really pick stocks? New evidence from a bootstrap analysis. Journal of Finance 61(6), 2551 – 2595.
免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。