多(duō)重假設檢驗的(de)源起、中興和(hé)未來(lái)

發布時(shí)間:2024-04-17  |   來(lái)源: 川總寫量化(huà)

作者:石川

摘要:實證資産定價中,多(duō)重假設檢驗容易造成樣本内的(de)僞發現。本文帶你了(le)解多(duō)重假設檢驗的(de)源起,中興和(hé)未來(lái)。


1 源起


多(duō)重假設檢驗(multiple hypothesis testing)指的(de)是同時(shí)檢驗多(duō)個(gè)原假設。在實證資産定價中,使用(yòng)曆史數據挖掘成百上千個(gè)因子正是多(duō)重假設檢驗。當同時(shí)檢驗多(duō)個(gè)假設時(shí),運氣成分(fēn)(噪聲)會導緻單個(gè)原假設檢驗結果的(de)顯著性被高(gāo)估。當排除了(le)運氣成分(fēn)後,原假設可(kě)能不再顯著。


在單一假設檢驗中,通(tōng)常以 0.05 作爲 p-value 的(de)阈值來(lái)判斷是否接受原假設,其對(duì)應的(de) t-statistic 爲 2.0。這(zhè)也(yě)早已成爲實證資産定價中挖因子的(de)依據。然而多(duō)重假設檢驗的(de)存在使得(de)低 p-value 無法準确說明(míng)因子是否有效。假設我們同時(shí)檢驗 100 個(gè)獨立的(de)因子并發現某個(gè)因子的(de) t-statistic = 2.0。在這(zhè)種情況下(xià),我們不能說該因子在 0.05 的(de)顯著性水(shuǐ)平下(xià)顯著。這(zhè)是因爲哪怕這(zhè) 100 個(gè)原假設都爲真(即它們的(de)超額收益都爲零),那麽僅僅靠運氣,其中出現 t-statistic 大(dà)于 2.0 的(de)概率高(gāo)達 99%。如果仍然按照(zhào)傳統意義上的(de) 2.0 作爲 t-statistic 的(de)阈值來(lái)評價因子是否顯著,注定會有很多(duō)僞發現(false discoveries 或 false rejections),即第 I 類錯誤。因此,正确處理(lǐ)多(duō)重假設檢驗的(de)影(yǐng)響成爲實證資産定價的(de)關鍵。


在這(zhè)方面,學術界的(de)研究成果可(kě)以被劃分(fēn)爲兩大(dà)類,即頻(pín)率主義方法和(hé)貝葉斯方法。爲了(le)排除運氣(噪聲)的(de)影(yǐng)響,頻(pín)率主義方法以控制第 I 類錯誤爲目标,通(tōng)過增大(dà)标準誤(standard errors)來(lái)修正單個(gè)因子的(de)顯著性水(shuǐ)平。直覺上說,增大(dà)标準誤意味著(zhe)增大(dà)置信區(qū)間,因而這(zhè)使得(de)單個(gè)檢驗的(de)顯著性門檻更加嚴格:隻有當一個(gè)因子原始的(de) t-statistic (遠(yuǎn))超過傳統意義上的(de) 2.0 水(shuǐ)平,其才有可(kě)能在被修正後依然顯著。


早期的(de)方法多(duō)屬于頻(pín)率主義方法,目标是控制第 I 類錯誤。在統計學中,族錯誤率(family-wise error rate,簡稱 FWER)、僞發現率(false discovery rate,簡稱 FDR)以及僞發現比例(false discovery proportion,簡稱 FDP)是常見的(de)第 I 類錯誤指标。讓我借助下(xià)表來(lái)解釋它們。


f1.png


假如一共有  個(gè)因子,其中  個(gè)原假設爲真,  個(gè)原假設爲假。根據事先選定的(de)顯著性水(shuǐ)平(比如 0.05),共有  個(gè)原假設被拒絕了(le),其中包括  個(gè)真實的(de)顯著因子(true discoveries)和(hé)  個(gè)虛假的(de)顯著因子(僞發現)。接下(xià)來(lái)利用(yòng)  和(hé)  分(fēn)别定義族錯誤率、僞發現率以及僞發現比例。


族錯誤率 FWER 定義爲出現至少一個(gè)僞發現的(de)概率,即  。在給定的(de)顯著性水(shuǐ)平  下(xià),控制 FWER 的(de)數學表達式爲  。不難看出,控制族錯誤率對(duì)單個(gè)假設來(lái)說相當嚴格,所以會大(dà)大(dà)提升第 II 類錯誤。針對(duì)族錯誤率,最早的(de)算(suàn)法包括 Bonferroni (1936) 和(hé) Holm (1979) 修正,它們均是直接修正單一假設檢驗的(de) p-value 以實現控制族錯誤率的(de)目的(de):


  


其中  和(hé)  分(fēn)别代表第  個(gè)因子原始和(hé)經過修正後的(de) p-value;以及


  


其中  第  個(gè)因子經修正後的(de) p-value。需要說明(míng)的(de)是,Holm (1979) 按照(zhào)因子原始 p-value 從小到大(dà)依次修正。無論是哪種方法,由于修正後的(de) p-value 往往大(dà)于原始 p-value(即修正後的(de) t-statistic 會比原始 t-statistic 更低),因此降低了(le)因子的(de)顯著性(即很多(duō)因子不再顯著)。


近年來(lái),還(hái)有一些以控制族錯誤率爲目标的(de)算(suàn)法被提出,包括 White (2000) 的(de) bootstrap reality check 方法和(hé) Romano and Wolf (2005, 2007) 的(de) StepM、k-StepM 方法等。這(zhè)三種算(suàn)法均通(tōng)過自助法(bootstrap)對(duì)因子收益率數據進行重采樣,并在此基礎上結合正交化(huà)求出 t-statistic 的(de)阈值,因而無需對(duì)數據的(de)分(fēn)布做(zuò)任何假設。


在上述描述中,正交化(huà)和(hé)自助法兩個(gè)詞反映了(le)這(zhè)些算(suàn)法以及頻(pín)率主義方法的(de)核心。正交化(huà)的(de)作用(yòng)是消除因子在樣本内的(de)收益率均值,使因子收益率在時(shí)序上成爲均值爲零的(de)随機擾動;自助法的(de)作用(yòng)是通(tōng)過對(duì)正交化(huà)後的(de)收益率進行采樣從而得(de)到僅靠運氣成分(fēn)而造成的(de)檢驗統計量的(de)分(fēn)布,以此就可(kě)以判斷原始因子的(de)顯著性是真實的(de)還(hái)是僅僅是噪聲造成的(de)。值得(de)一提的(de)是,由于太過嚴苛,以控制族錯誤率爲目标并不是很适合金融領域。


僞發現率 FDR 的(de)定義爲  的(de)期望,即  。在給定的(de)水(shuǐ)平  下(xià)控制它可(kě)以表達爲  。從定義可(kě)知,控制僞發現率允許  随  增加。由于控制目标是僞發現比例,因此它是一種相對(duì)溫和(hé)的(de)方法。這(zhè)意味著(zhe),當以僞發現率代替族錯誤率爲控制目标時(shí),會有更多(duō)的(de)原假設被拒絕。這(zhè)其中的(de)代表算(suàn)法包括 Benjamini and Hochberg (1995) 和(hé) Benjamini and Yekutieli (2001)。這(zhè)類算(suàn)法對(duì)檢驗統計量之間的(de)相關性不敏感,适應性更強。


最後,控制僞發現比例 FDP 的(de)目标是限制  超過某給定阈值  的(de)概率不高(gāo)于顯著性水(shuǐ)平  ,即  。常見的(de)算(suàn)法包括 Romano and Wolf (2007) 和(hé) Romano, Shaikh and Wolf (2008)。以控制上述三種統計量爲目标的(de)算(suàn)法在統計學中得(de)到了(le)廣泛的(de)應用(yòng)。對(duì)于金融領域,一般認爲以控制僞發現率和(hé)僞發現比例爲目标是更好的(de)選擇。Harvey, Liu and Saretto (2020) 對(duì)不同算(suàn)法進行了(le)綜述。


2 中興


近年來(lái),學術界越來(lái)越重視多(duō)重假設檢驗問題對(duì)因子顯著性的(de)影(yǐng)響,在這(zhè)方面也(yě)誕生了(le)很多(duō)優秀的(de)研究成果。在介紹這(zhè)些研究成果之前,讓我們先來(lái)簡要回顧一下(xià)相關的(de)背景。


2017 年,時(shí)任美(měi)國金融協會(AFA)主席 Campbell Harvey 教授在年會上以 The Scientific Outlook in Financial Economics 爲題進行了(le)主席演講。以一個(gè)學者應有的(de)科學态度和(hé)操守,Harvey 教授深刻剖析了(le)近年來(lái)學術界在實證資産定價研究中的(de)一個(gè)錯誤趨勢。爲了(le)競逐在頂級期刊上發表文章(zhāng),學者們通(tōng)過各種數據窺探手段過度追求因子的(de)低 p-value(即 p-hacking)。由于有意或無意的(de)數據操縱、使用(yòng)不嚴謹的(de)統計檢驗手段、錯誤地理(lǐ)解 p-value 的(de)含義、以及忽視因子的(de)内在經濟學邏輯,很多(duō)在功利心驅使下(xià)被創造出來(lái)的(de)因子在實際投資中根本站不住腳(McLean and Pontiff 2016)。此外,發源于因子投資、在業界早已成爲主流的(de) Smart Beta ETF 基金也(yě)飽受 p-hacking 問題困擾。Huang, Song and Xiang (forthcoming) 記錄了(le)這(zhè)類基金被推出後其表現相較于其樣本内表現急劇下(xià)滑的(de)實證發現,并指出過度的(de)數據挖掘是這(zhè)背後的(de)罪魁禍首。


要論爲學術界敲響多(duō)重假設檢驗警鐘(zhōng)的(de)代表性論文,Harvey, Liu and Zhu (2016) 當仁不讓。該文研究了(le)學術界發表的(de) 316 個(gè)因子。以控制僞發現率爲目标,該文發現隻有一個(gè)因子原始 t-statistic 超過 3.0 時(shí),其才在排除多(duō)重假設檢驗的(de)影(yǐng)響後依然是有效的(de)。除此之外,該文指出在全部三百多(duō)個(gè)因子中,僞發現的(de)比例高(gāo)達 27%。


在試圖消除多(duō)重假設檢驗的(de)影(yǐng)響時(shí),除了(le)選擇合适的(de)統計手段外,另一個(gè)必須面對(duì)的(de)問題是到底有多(duō)少個(gè)原假設被同時(shí)檢驗(即有多(duō)少因子被挖出)。這(zhè)個(gè)問題之所以重要,是因爲基數決定了(le)運氣的(de)多(duō)寡。比如,檢驗 100 個(gè)和(hé) 10000 個(gè)因子相比,萬裏挑一的(de)肯定要比百裏挑一的(de)更顯著。所以,隻有知道學術界到底挖了(le)多(duō)少因子,才有可(kě)能準确修正多(duō)重假設檢驗問題。


看到這(zhè)裏,有的(de)讀者可(kě)能會問,Harvey, Liu and Zhu (2016) 考慮了(le) 300 多(duō)個(gè)因子、Hou, Xue and Zhang (2020) 複現了(le) 450 個(gè)左右因子,它們是否就是學術界挖掘的(de)全部呢(ne)?不幸的(de)是,答(dá)案是否定的(de)。因爲這(zhè)些僅僅是被發表出來(lái)的(de)因子,而學術界在這(zhè)背後到底嘗試了(le)額外多(duō)少因子是無從而知的(de)。由于已發表的(de)因子是所有被研究因子的(de)子集,因此我們可(kě)以判斷 Harvey, Liu and Zhu (2016) 發現的(de) 3.0 阈值僅僅是保守估計。幸運的(de)是,Chordia, Goyal and Saretto (2020) 創造性使用(yòng)模拟推斷出基于研究的(de)因子集的(de)統計特征如何消除多(duō)重假設檢驗的(de)影(yǐng)響。該文将 t-statistic 的(de)阈值進一步提升至 3.4 以上,且模拟計算(suàn)顯示,僞發現比例高(gāo)達 45.3%。


頻(pín)率主義方法依賴于引入衡量評價多(duō)個(gè)假設整體第 I 類錯誤的(de)指标(例如族錯誤率或僞發現率),并以此爲目标調整單一假設檢驗的(de)顯著性。與頻(pín)率主義方法相對(duì)應的(de),是貝葉斯方法。貝葉斯方法允許人(rén)們引入從經濟學理(lǐ)論得(de)出的(de)關于因子是否爲真的(de)先驗。但缺點是完整的(de)貝葉斯框架計算(suàn)十分(fēn)複雜(zá),因此人(rén)們有時(shí)不得(de)不做(zuò)出一些妥協和(hé)簡化(huà)。


Scott and Berger (2006) 在貝葉斯框架下(xià)提出了(le)研究因子收益率的(de)一個(gè)三層模型。利用(yòng)該模型,人(rén)們可(kě)以計算(suàn)出每個(gè)因子爲真的(de)後驗概率。随著(zhe)同時(shí)檢驗的(de)假設個(gè)數(即因子個(gè)數)的(de)增加,後驗概率将更加接近 0。換句話(huà)說,随著(zhe)噪聲信号(虛假因子)個(gè)數的(de)增多(duō),真實因子傳遞出來(lái)的(de)證據也(yě)會随之而降低,這(zhè)體現出和(hé)頻(pín)率主義方法相對(duì)應的(de)對(duì)多(duō)重假設檢驗的(de)懲罰。這(zhè)正是貝葉斯框架自帶奧卡姆剃刀(dāo)效應,即根據同時(shí)被檢驗的(de)因子的(de)個(gè)數自動調整因子爲真的(de)後驗概率的(de)原因。


雖然完整的(de)貝葉斯框架理(lǐ)論完整,但實操起來(lái)也(yě)有很多(duō)問題。例如它的(de)假設(尤其條件獨立性方面的(de)假設)太過苛刻,且在計算(suàn)方面,當同時(shí)考慮的(de)因子個(gè)數很多(duō)時(shí),計算(suàn)每個(gè)因子爲真的(de)後驗概率極具挑戰。第三,即便得(de)到了(le)每個(gè)因子爲真的(de)後驗概率,我們依然需要構建一個(gè)判斷準則,即後驗概率高(gāo)于多(duō)少阈值的(de)因子可(kě)以被視爲真。然而在這(zhè)方面,目前還(hái)沒有太多(duō)指導。


鑒于完整貝葉斯框架的(de)實踐應用(yòng)充滿挑戰,人(rén)們便希望退而求其次通(tōng)過别的(de)方式利用(yòng)貝葉斯思想。在這(zhè)方面,Harvey (2017) 提出了(le)最小貝葉斯因子,并通(tōng)過它計算(suàn)貝葉斯後驗 p-value 進而判斷因子是否顯著。爲了(le)讓各位小夥伴更好地理(lǐ)解最小貝葉斯因子以及貝葉斯後驗 p-value,先來(lái)說說 p-value 的(de)正确含義。由定義可(kě)知,p-value 表示原假設下(xià)觀測到某(極端)事件的(de)條件概率。因此,p-value 越低,說明(míng)在原假設(因子預期收益率爲零)下(xià)越不太可(kě)能出現樣本數據中的(de)平均收益率。


若以  代表極端事件,則 p-value 表示  。然而,“p-value 越低”和(hé)“因子越能獲得(de)超額收益”這(zhè)二者并不等價。對(duì)于後者而言,人(rén)們關心的(de)應該是在極端事件  發生的(de)前提下(xià),原假設爲真的(de)條件概率,即  ,但這(zhè)并非 p-value 回答(dá)的(de)問題。把  錯當成  是一個(gè)非常嚴重的(de)錯誤。


Harvey (2017) 通(tōng)過最小貝葉斯因子計算(suàn)了(le)貝葉斯後驗概率,從而回答(dá)人(rén)們真正關心的(de)問題  。由貝葉斯統計可(kě)知,先驗機會比(prior odds ratio)、後驗機會比(posterior odds ratio)以及貝葉斯因子(Bayes factor)之間滿足如下(xià)關系:


  


令  和(hé)  代表關于因子預期收益率的(de)原假設和(hé)備擇假設,則貝葉斯因子定義爲兩個(gè)似然函數之比


  


令  表示  的(de)參數。在檢驗因子預期收益率時(shí),通(tōng)常原假設爲 0,因此可(kě)以将  寫成  。但是對(duì)于備擇假設,爲了(le)讓分(fēn)析更具一般性,往往認爲在  下(xià),對(duì)應的(de)參數  服從先驗分(fēn)布  。在這(zhè)種情況下(xià),其似然函數爲  ,因此貝葉斯因子變爲


  


對(duì)于檢驗因子來(lái)說,後驗機會比是我們真正關注的(de)問題。它告訴我們原假設和(hé)備擇假設後驗概率的(de)高(gāo)低——一個(gè)特别低的(de)後驗機會比意味著(zhe)原假設的(de)後驗概率很低,因此我們可(kě)以安全地拒絕原假設,即認爲因子是真實的(de)。不過,想要計算(suàn)後驗機會比,就必須要先算(suàn)出貝葉斯因子。但從上面的(de)定義可(kě)知,計算(suàn)它時(shí)需要指定備擇假設下(xià)的(de)先驗分(fēn)布,但這(zhè)往往非常困難。不過好消息是,在衆多(duō)貝葉斯因子的(de)取值中,有一個(gè)特殊的(de)取值,它就是最小貝葉斯因子(minimum Bayes factor,簡稱 MBF)。


爲了(le)直觀理(lǐ)解最小貝葉斯因子,我們來(lái)回顧一下(xià)後驗機會比  先驗機會比  貝葉斯因子。上式可(kě)以理(lǐ)解爲,對(duì)于  和(hé)  來(lái)說,我們從先驗機會比出發,通(tōng)過乘以貝葉斯因子得(de)到後驗機會比。當給定先驗機會比時(shí),貝葉斯因子越小(因此後驗機會比越低),那麽相對(duì)于先驗,我們在後驗中對(duì)原假設仍然持有的(de)信念就越弱;貝葉斯因子越大(dà)(因此後驗機會比越高(gāo)),那麽相對(duì)于先驗,我們在後驗中對(duì)原假設仍然持有的(de)信念就越強。因此,貝葉斯因子衡量了(le)當我們看到樣本數據之後,會在多(duō)大(dà)程度上偏離先驗機會比,而最小貝葉斯因子提供了(le)對(duì)于原假設而言最強烈程度的(de)偏離。


直觀理(lǐ)解最小貝葉斯因子後,我們便能夠順水(shuǐ)推舟地搞懂(dǒng)如何計算(suàn)它。最小貝葉斯因子對(duì)應著(zhe)一個(gè)特殊的(de)備擇假設下(xià)的(de)先驗分(fēn)布,提供了(le)反對(duì)原假設的(de)最強烈證據。考慮下(xià)面這(zhè)個(gè)例子,假設有 1000 個(gè)因子收益率的(de)觀測值,其樣本均值爲 4%。那麽在什(shén)麽情況下(xià)我們會得(de)到最小貝葉斯因子呢(ne)?這(zhè)個(gè)問題的(de)答(dá)案是:在備擇假設的(de)先驗分(fēn)布中,所有的(de)數據都集中在 4% 這(zhè)個(gè)樣本均值,即備擇假設的(de)先驗分(fēn)布的(de)密度集中在數據的(de)最大(dà)似然估計值時(shí),貝葉斯因子是最小的(de)。


通(tōng)過以上論述可(kě)知,最小貝葉斯因子允許人(rén)們計算(suàn)原假設後驗概率的(de)下(xià)界。更爲關鍵的(de)是,它回答(dá)的(de)是人(rén)們真正關心的(de)問題,即給定數據時(shí)原假設爲真的(de)條件概率。利用(yòng)原始 p-value 或 t-statistic, Harvey (2017) 給出了(le)計算(suàn)最小貝葉斯因子的(de)兩種方法:


  


此外,利用(yòng)後驗機會比  先驗機會比  貝葉斯因子并經過簡單代數運算(suàn),可(kě)以方便地求出原假設爲真的(de)後驗概率,即貝葉斯後驗 p-value:


  


爲了(le)在實際操作中應用(yòng)貝葉斯後驗 p-value,除了(le)需要知道最小貝葉斯因子外,還(hái)需要指定先驗機會比。爲此,一些經驗法則爲:(1)對(duì)于嚴重缺乏經濟學依據的(de)因子,先驗機會比 49:1;(2)對(duì)于似是而非的(de)因子,先驗機會比 4:1;(3)對(duì)于具備經濟學理(lǐ)論依據的(de)因子,先驗機會比 1:1。


3 未來(lái)


除了(le)以上标準意義上的(de)貝葉斯方法,近年來(lái)的(de)另一個(gè)新的(de)思路是對(duì)貝葉斯思想的(de)拓展,即通(tōng)過先驗知識決定真實因子在所有因子中的(de)占比,然後通(tōng)過 bi-modal mean 分(fēn)布對(duì)真實和(hé)虛假因子的(de)預期收益率建模。這(zhè)方面的(de)代表是 Harvey and Liu (2020, 2021)。在我看來(lái),它們代表實證資産定價中多(duō)重假設檢驗的(de)未來(lái)。


不過仍需指出的(de)是,它們并非傳統意義上的(de)貝葉斯方法,仍屬頻(pín)率主義方法範疇。但由于它們都通(tōng)過一個(gè)先驗參數  控制真實因子的(de)比例,因而可(kě)以被視作貝葉斯思想的(de)延伸。通(tōng)過引入  ,不僅使得(de)對(duì)多(duō)重假設檢驗的(de)處理(lǐ)更加貼近現實,也(yě)讓人(rén)們能夠在第 I 和(hé)第 II 類錯誤之間權衡。這(zhè)在第 II 類錯誤的(de)成本越來(lái)越高(gāo)的(de)今天顯得(de)尤爲重要。


回顧一下(xià),頻(pín)率主義方法中的(de)多(duō)重假設檢驗修均可(kě)以歸納到正交化(huà)和(hé)自助法這(zhè)兩個(gè)核心思想的(de)綜合運用(yòng)。其中正交化(huà)的(de)作用(yòng)是在樣本内剔除每個(gè)因子的(de)超額收益(即把因子轉變爲噪聲);自助法則是在正交化(huà)後的(de)基礎上通(tōng)過重采樣數據,以此獲得(de)僅由運氣造成的(de)因子收益率的(de) t-statistic 的(de)分(fēn)布。在得(de)到該分(fēn)布後,傳統頻(pín)率主義方法往往以控制事先約定的(de)第 I 類錯誤上限(例如常見的(de) 5%)來(lái)選定 t-statistic 的(de)阈值,并以此确定真實因子。在傳統方法中,存在兩個(gè)問題:


1. 正交化(huà)過程通(tōng)常會對(duì)所有因子進行(這(zhè)隐含的(de)假設是所有因子的(de)超額收益均爲零)。然而在現實中,這(zhè)種處理(lǐ)忽視了(le)先驗的(de)作用(yòng)。對(duì)于待檢驗的(de)諸多(duō)因子而言,人(rén)們可(kě)根據金融學先驗認爲其中一定比例的(de)因子是真實的(de),然而傳統方法忽視了(le)這(zhè)一信息。


2. t-statistic 阈值的(de)确定一般是以控制第 I 類錯誤爲唯一目标。這(zhè)麽做(zuò)的(de)結果是,傳統多(duō)重假設檢驗方法的(de)第 II 類錯誤率往往很高(gāo),因此功效(  ) 往往很低。舉個(gè)極端的(de)例子,如果某個(gè)算(suàn)法把所有原假設都接受了(le),那麽它也(yě)就沒能發現任何真正的(de)因子,即功效爲零。


在  越來(lái)越稀缺的(de)當下(xià),第 II 類錯誤的(de)成本變得(de)越來(lái)越高(gāo),讓人(rén)們愈加重視兩類錯誤之間的(de)取舍。盡管如此,傳統方法僅關心第 I 類錯誤(即控制僞發現)也(yě)實在是無奈之舉。這(zhè)是因爲哪怕對(duì)于單一假設檢驗,計算(suàn)第 II 類錯誤率都并不容易,更不用(yòng)說多(duō)重假設檢驗問題。如果想要計算(suàn)第 II 類錯誤率,就必須知道備擇假設下(xià)參數的(de)取值。但顯然,對(duì)于成百上千個(gè)因子來(lái)說,遍曆它們備擇假設下(xià)的(de)預期超額收益率不切實際。這(zhè)個(gè)巨大(dà)的(de)障礙使得(de)人(rén)們難以将單一檢驗中計算(suàn)第 II 類錯誤率的(de)方法複制到多(duō)重假設檢驗問題中。


在這(zhè)種背景下(xià),Harvey and Liu (2020) 通(tōng)過引入先驗知識并使用(yòng)一個(gè)基于雙層自助法的(de)框架,同時(shí)解決了(le)上述兩個(gè)問題。對(duì)于第一個(gè)問題,他(tā)們借鑒了(le)基金研究中經常使用(yòng)的(de) bi-modal mean 分(fēn)布(Harvey and Liu 2018):即絕大(dà)部分(fēn)因子是虛假的(de),它們預的(de)期收益率來(lái)自均值爲零的(de)分(fēn)布;而一小部分(fēn)因子是真實的(de),它們的(de)預期收益率來(lái)自均值非零的(de)分(fēn)布。人(rén)們可(kě)以根據自身的(de)經驗(即先驗)來(lái)選擇真實因子的(de)比例  ,它是貝葉斯思想的(de)體現。另外,通(tōng)過雙重自助法,該框架可(kě)以同時(shí)計算(suàn)第 I 和(hé)第 II 類錯誤,實現了(le)二者之間的(de)權衡,解決了(le)上述第二個(gè)問題。二位作者通(tōng)過大(dà)量的(de)實證論證了(le)其方法的(de)先進性。


以下(xià)針對(duì) A 股中常見的(de) 95 個(gè)因子應用(yòng)上述雙層自助法。下(xià)圖給出了(le)不同  下(xià),控制 5% 的(de)第 I 類錯誤率所需要的(de) t-statistic 阈值。從中可(kě)以看出,随著(zhe)先驗中真實因子占比(  )的(de)增加,控制僞發現所需的(de) t-statistic(單調)下(xià)降。該圖很好地表明(míng)了(le)貝葉斯思想的(de)重要性。在傳統多(duō)重假設檢驗方法中,由于不指定  ,正交化(huà)會被作用(yòng)于所有因子,導緻 t-statistic 的(de)阈值過高(gāo)(對(duì)應下(xià)圖中  的(de)情況)。而當人(rén)們有足夠的(de)理(lǐ)由對(duì)待檢驗的(de)因子給出合理(lǐ)的(de)先驗時(shí),通(tōng)過合适的(de)  就能夠求出更加符合實際的(de) t-statistic 阈值。


圖片


近年來(lái),Harvey 教授和(hé)他(tā)的(de)長(cháng)期合作者劉岩教授(對(duì),Harvey and Liu 裏面的(de) Liu!)一直緻力于呼籲學術界抵制追逐超低 p-value 的(de)不良學術風氣。兩位的(de)諸多(duō)實證結果不僅質疑了(le)過去幾十年來(lái)學術研究中挖掘出的(de)相當一部分(fēn)因子,更是從某種程度上挑戰了(le)學術研究的(de)權威。然而,出于對(duì)學術風氣和(hé)學術成果的(de)保護,站在他(tā)們對(duì)立面的(de)質疑之聲也(yě)同樣此起彼伏。這(zhè)其中首當其沖的(de)要數 Chen (2021) 和(hé) Jensen, Kelly and Pedersen (2023)。


Chen (2021) 通(tōng)過思想實驗指出僅靠 p-hacking 根本無法解釋學術界發現的(de)諸多(duō)非常顯著的(de)因子,并通(tōng)過他(tā)的(de)模型得(de)出了(le)一系列推論,間接指出對(duì)于 p-hacking 的(de)擔憂可(kě)能被誇大(dà)了(le)。然而,無論是學術界還(hái)是業界,大(dà)家的(de)共識是所有因子預期收益聯合爲零(即前文提到的(de) ensemble null 先驗)這(zhè)個(gè)原假設一定會被拒絕,即人(rén)們都認可(kě)存在一部分(fēn)顯著因子。因此,根本沒有人(rén)否認僅靠 p-hacking 無法解釋一些非常顯著的(de)真實因子被發現。但是人(rén)們也(yě)同樣相信,多(duō)重假設檢驗和(hé)發表偏差的(de)影(yǐng)響促使一些虛假因子的(de)誕生。所以,在所有因子中,到底有多(duō)少是真實的(de)?更進一步,對(duì)于通(tōng)過多(duō)重假設檢驗修正的(de)真實因子,它們的(de)收益率在樣本外的(de)收縮系數又是多(duō)少?然而 Chen (2021) 并沒有回答(dá)這(zhè)些問題。


面對(duì)質疑,Harvey and Liu (2021) 做(zuò)出了(le)回應。在檢驗因子時(shí),除去被發表的(de)之外,還(hái)需要考慮因爲不夠顯著而被學者們放棄的(de)因子,這(zhè)些構成了(le)總共被嘗試的(de)因子。但現實中,總共嘗試的(de)因子個(gè)數是未知的(de)。爲了(le)解決這(zhè)個(gè)難題,Harvey and Liu (2021) 再次對(duì)因子預期收益率使用(yòng)了(le) bi-modal mean 先驗分(fēn)布,并通(tōng)過理(lǐ)論模型和(hé)參數校準回答(dá)了(le)關鍵問題。參數校準的(de)結果或許讓人(rén)有些意想不到(但細想其實是合理(lǐ)的(de)),即這(zhè)個(gè)問題本身是未識别的(de)(lack of identification)。換句話(huà)說,它的(de)最優參數不唯一。在三組參數下(xià),模拟得(de)到的(de)統計指标均和(hé)實際值較好地吻合。而這(zhè)個(gè)問題之所以是未識别的(de),原因恰恰是人(rén)們觀察到的(de)隻有被發表的(de)因子,而學術界到底嘗試了(le)多(duō)少個(gè)因子永遠(yuǎn)是未知的(de)。這(zhè)是在研究 p-hacking 問題時(shí)注定無法逃避的(de)現實。至于它可(kě)能的(de)取值範圍則取決于研究者的(de)經驗和(hé)對(duì)實證數據的(de)理(lǐ)解。


Jensen, Kelly and Pedersen (2023) 是另一篇維護既往實證研究發現的(de)文章(zhāng)。該文通(tōng)過經驗貝葉斯模型發現,即便考慮了(le)多(duō)重假設檢驗問題,因子平均收益率的(de)标準誤也(yě)無需被擴大(dà)(即顯著性不會受到明(míng)顯影(yǐng)響),因此絕大(dà)多(duō)數已發表因子都是成立的(de),金融實證研究不存在複制危機。然而,他(tā)們的(de)模型也(yě)隐含著(zhe)讓人(rén)們指定真實因子的(de)比例(即  )。如果先驗認爲真實因子的(de)比例足夠高(gāo),那麽多(duō)重假設檢驗确實不會造成太大(dà)的(de)影(yǐng)響,而傳統意義上的(de) 2.0 阈值也(yě)仍然可(kě)以被用(yòng)來(lái)檢驗因子。使用(yòng)前文實證中的(de) 95 個(gè)因子,我們發現當  等于 50% 時(shí)(即認爲一半的(de)因子爲真), 2.0 的(de) t-statistic 阈值可(kě)以将僞發現率控制在 4% 以下(xià)(因此滿足常見的(de) 5% 的(de)要求)。歸根到底,人(rén)們關于真實因子的(de)合理(lǐ)先驗對(duì)于正确應對(duì)多(duō)重假設檢驗問題至關重要。


談到多(duō)重假設檢驗,其他(tā)學科對(duì)它的(de)重視其實由來(lái)已久,而金融學對(duì)它的(de)重視則相對(duì)較晚。但好消息是,Harvey 和(hé)劉岩兩位教授在這(zhè)項 research agenda 上的(de)探索,已經讓人(rén)們充分(fēn)意識到這(zhè)個(gè)問題,并開始通(tōng)過各種手段來(lái)降低 p-hacking 的(de)影(yǐng)響。由于多(duō)重假設檢驗的(de)危害頗具争議(yì)性,因此學術界以開放的(de)心态來(lái)討(tǎo)論它至關重要。正如前文所述,因爲人(rén)們隻觀測到了(le)被發表的(de)因子,而不知道到底嘗試了(le)多(duō)少因子,所以這(zhè)個(gè)問題注定是未識别的(de)。正因如此,對(duì) p-hacking 的(de)研究确實存在主觀的(de)一面。坦然承認這(zhè)個(gè)計量上的(de)系統問題,并通(tōng)過合理(lǐ)的(de)先驗得(de)到令人(rén)信服的(de)結論,才是應有的(de)研究态度。


最後,一圖總結多(duō)重假設檢驗的(de)源起、中興和(hé)未來(lái)。


f3.png


參考文獻

Benjamini, Y. and Y. Hochberg (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society, Series B 57(1), 289-300.

Benjamini, Y. and D. Yekutieli (2001). The control of the false discovery rate in multiple testing under dependency. Annals of Statistics 29(4), 1165-1188.

Bonferroni, C. E. (1936). Teoria Statistica Delle Classi e Calcolo Delle Probabilità. Florence, Italy: Libreria Internazionale Seeber.

Chen, A. Y. (2021). The limits of p-hacking: Some thought experiments. Journal of Finance 76(5), 2447-2480.

Chordia, T., A. Goyal, and A. Saretto (2020). Anomalies and false rejections. Review of Financial Studies 33(5), 2134-2179.

Harvey, C. R. (2017). Presidential address: The scientific outlook in financial economics. Journal of Finance 72(4), 1399-1440.

Harvey, C. R. and Y. Liu (2018). Detecting repeatable performance. Review of Financial Studies 31(7), 2499-2552.

Harvey, C. R. and Y. Liu (2020). False (and missed) discoveries in financial economics. Journal of Finance 75(5), 2503-2553.

Harvey, C. R. and Y. Liu (2021). Uncovering the iceberg from its tip: A model of publication bias and p-hacking. Duke University, Purdue University.

Harvey, C. R., Y. Liu, and A. Saretto (2020). An evaluation of alternative multiple testing methods for finance applications. Review of Asset Pricing Studies 10(2), 199-248.

Harvey, C. R., Y. Liu, and H. Zhu (2016). ... and the cross-section of expected returns. Review of Financial Studies 29(1), 5-68.

Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics 6(2), 65-70.

Hou, K., C. Xue, and L. Zhang (2020). Replicating anomalies. Review of Financial Studies 33(5), 2019-2133.

Huang, S., Y. Song, and H. Xiang (forthcoming). The smart beta mirage. Journal of Financial and Quantitative Analysis.

Jensen, T. I., B. T. Kelly, and L. H. Pedersen (2023). Is there a replication crisis in finance? Journal of Finance 78(5), 2465-2518.

McLean, R.D. and J. Pontiff (2016). Does academic research destroy stock return predictability? Journal of Finance 71(1), 5-32.

Romano, J. P., A. M. Shaikh, and M. Wolf (2008). Formalized data snooping based on generalized error rates. Econometric Theory 24(2), 404-447.

Romano, J. P. and M. Wolf (2005). Stepwise multiple testing as formalized data snooping. Econometrica 73(4), 1237-1282.

Romano, J. P. and M. Wolf (2007). Control of generalized error rates in multiple testing. Annals of Statistics 35(4), 1378-1408.

Scott, J. G. and J. O. Berger (2006). An exploration of aspects of Bayesian multiple testing. Journal of Statistical Planning and Inference 136(7), 2144-2162.

White, H. (2000). A reality check for data snooping. Econometrica 68(5), 1097-1126.



免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。