出色不如走運 (VII) ?

發布時(shí)間:2022-03-05  |   來(lái)源: 川總寫量化(huà)

作者:石川

摘要:Bayesian approach to multiple tests.


引言


p-value,這(zhè)個(gè)人(rén)們在檢驗因子和(hé)異象收益率時(shí)繞不過的(de)指标,正逐漸退去“光(guāng)環”。


2019 年,美(měi)國統計協會的(de)官方期刊 The American Statistician 推出了(le)一期名爲 Statistical Inference in the 21st Century: A World Beyond p < 0.05 的(de)專刊[1],用(yòng)多(duō)達 40 篇文章(zhāng)“聲討(tǎo)”了(le) p-value 如何被錯誤使用(yòng),并給出了(le)可(kě)行的(de)替代辦法。事實上,美(měi)國統計協會對(duì) p-value 的(de)“敲打”由來(lái)已久,而很多(duō)頂級期刊,包括 Econometrica 和(hé) American Economic Review,也(yě)都已經在其期刊 policy 裏寫明(míng)不鼓勵使用(yòng)人(rén)們熟悉的(de)小星星 —— *、**、*** —— 來(lái)表示統計顯著性。然而在這(zhè)期專刊中,美(měi)國統計協會更是直接建議(yì)禁止使用(yòng)“統計上顯著”。


f1.png


我們不難理(lǐ)解美(měi)國統計協會的(de)這(zhè)個(gè)主張(對(duì)于他(tā)們的(de)論述請自行查閱原文,這(zhè)個(gè)專刊都是 open access)。當人(rén)們過度強調統計顯著性時(shí),自然而然的(de)就把 p-value 推到了(le)聚光(guāng)燈之下(xià)。從研究來(lái)看,一個(gè) p-value = 0.049 的(de)結果和(hé)另一個(gè) p-value = 0.051 的(de)結果也(yě)許沒有太大(dà)差别,但是一旦人(rén)們意識到前者可(kě)以被加上 ** 而後者通(tōng)常隻能被加上一個(gè) * 的(de)時(shí)候(從而增加論文被發表的(de)幾率),一切就發生了(le)變化(huà)。人(rén)們會有意識(或無意識)地操縱數據、朝著(zhe)兩個(gè) ** 而努力,而這(zhè)就引出了(le)《出色不如走運》系列的(de)主題 p-hacking。而多(duō)重假設檢驗的(de)存在,無疑更是讓 p-hacking 雪(xuě)上加霜。


爲了(le)降低 p-hacking 的(de)影(yǐng)響,我們在研究因子和(hé)異象的(de)時(shí)候需要考慮多(duō)重假設檢驗問題。《出色不如走運》系列的(de)前幾篇文章(zhāng)介紹了(le)實證資産定價領域這(zhè)方面最新的(de)研究成果,例如 Chordia, Goyal and Saretto (2020) 以及 Harvey and Liu (2020) 等。此外,Harvey, Liu and Saretto (2020) 一文則回顧了(le)更爲常見的(de) Bonferroni、Holm 以及 StepM 等方法[2]。


不過,以上介紹的(de)大(dà)部分(fēn)方法,都是頻(pín)率主義方法。這(zhè)些方法依賴于引入 overall error rates(例如 FWER 或 FDR),并以此爲目标調整單一假設檢驗的(de) p-value。與頻(pín)率主義方法相對(duì)應的(de),是貝葉斯方法。顧名思義,貝葉斯方法允許我們引入從經濟學理(lǐ)論得(de)出的(de)關于因子是否爲真的(de)先驗。此外,貝葉斯方法還(hái)自帶奧卡姆剃刀(dāo)效應(Ockham’s razor effect),它能根據同時(shí)被檢驗的(de)因子的(de)個(gè)數自動調整因子爲真的(de)後驗概率(看完下(xià)一節你就會明(míng)白這(zhè)句話(huà)的(de)含義)。


今天我們就通(tōng)過 Campbell Harvey 的(de)幾篇文章(zhāng),給應對(duì) p-hacking 的(de)貝葉斯方法開個(gè)頭。


完整的(de)貝葉斯框架


我們從 Harvey, Liu and Zhu (2016) 談起,這(zhè)篇文章(zhāng)把實證資産定價研究中多(duō)重假設檢驗問題的(de)嚴重性擺上了(le)台面,至此之後,人(rén)們也(yě)不再使用(yòng)傳統的(de) t-statistic = 2.0 阈值,而是使用(yòng)更高(gāo)的(de)阈值(例如 3.0)。這(zhè)篇文章(zhāng)的(de)正文介紹的(de)依然是頻(pín)率主義方法。不過,該文的(de)附錄 B 介紹了(le)一個(gè)貝葉斯框架下(xià)的(de) hierarchical model,它是一個(gè)完整的(de)貝葉斯框架。該貝葉斯框架源自 Scott and Berger (2006)。Harvey, Liu and Zhu (2016) 的(de)附錄以及 Scott and Berger (2006) 都非常值得(de)一讀,不過前者是在實證資産定價的(de)角度介紹該 hierarchical model,論述的(de)更清晰一些。


該 hierarchical model 分(fēn)爲三層。


第一層:  


其中  表示因子  的(de)平均收益率,  表示未知的(de)因子收益率均值,  表示方差(注意,此處方差沒有加下(xià)标  ,因而暗含的(de)假設是所有因子平均收益率的(de)方差相同),  是一個(gè)二分(fēn)變量(取值爲 1 意味著(zhe)因子是真正的(de);取值爲 0 意味著(zhe)因子爲虛假的(de))。


在上述模型中,等方差這(zhè)個(gè)假設并沒有聽(tīng)上去那麽不合理(lǐ);例如,在實際中,我們總可(kě)以通(tōng)過調整杠杆來(lái)讓所有因子投資組合等波動。不過,另一個(gè)關鍵假設,即收益率滿足 conditionally IID 則多(duō)少有些苛刻。不過正如 Harvey, Liu and Zhu (2016) 所言,條件獨立性對(duì)于貝葉斯框架和(hé)構造似然函數至關重要。


在上述假設下(xià),似然函數爲(令  、  以及  分(fēn)别表示對(duì)應  、  以及  的(de)向量):


  


第二層:  


模型的(de)第一層描繪了(le)在給定  和(hé)  下(xià),因子平均收益率的(de)分(fēn)布,不過并沒有說  和(hé)  是怎麽來(lái)的(de),這(zhè)就是模型的(de)第二層。模型假設  滿足 IID 正态分(fēn)布(均值爲零,方差爲  ),而  滿足參數爲  的(de)伯努利分(fēn)布,即  的(de)概率爲  ,  的(de)概率爲  。


在前兩層的(de)基礎上,爲了(le)使上述貝葉斯框架變得(de)完整,我們還(hái)需要最後一步,即  、  和(hé)  的(de)先驗分(fēn)布。


第三層:  


在這(zhè)一步,人(rén)們可(kě)以根據自己的(de)偏好選擇參數的(de)先驗分(fēn)布  和(hé)  。在沒有充分(fēn)先驗知識的(de)情況下(xià),一組推薦使用(yòng)的(de)先驗分(fēn)布爲(Scott and Berger 2006):


  

  


對(duì)于  的(de)合理(lǐ)性,Scott and Berger (2006) 中花了(le)一定的(de)篇幅,感興趣的(de)讀者請閱讀原文。在  中,  是一個(gè)控制其分(fēn)布中心的(de)參數(例如,當  時(shí),  變爲 uniform distribution)。由定義可(kě)知,參數  控制了(le)每個(gè)因子爲假的(de)概率(回憶一下(xià),  的(de)概率爲  )。也(yě)許我們沒有足夠的(de)先驗知識準确地描繪  的(de)分(fēn)布,但常識告訴我們大(dà)部分(fēn)因子應該是虛假的(de),因此  的(de)取值應該接近 1。


此外,當同時(shí)考察的(de)因子個(gè)數增大(dà)時(shí),我們也(yě)可(kě)以根據先驗知識進一步調整  從而控制  的(de)分(fēn)布(使其分(fēn)布更加靠近 1)。利用(yòng)上述貝葉斯框架,我們也(yě)可(kě)以計算(suàn)出每個(gè)因子爲真的(de)後驗概率,即  。由後驗概率可(kě)知,随著(zhe)同時(shí)檢驗的(de)假設個(gè)數(即因子個(gè)數)的(de)增加,後驗概率  将更加接近零。換句話(huà)說,随著(zhe)噪聲信号(虛假因子)個(gè)數的(de)增多(duō),真實因子傳遞出來(lái)的(de)證據也(yě)會随之而降低。這(zhè)正是貝葉斯框架自帶奧卡姆剃刀(dāo)效應,即根據同時(shí)被檢驗的(de)因子的(de)個(gè)數自動調整因子爲真的(de)後驗概率的(de)原因。


下(xià)表展示了(le)來(lái)自 Scott and Berger (2006) 的(de)一個(gè)例子。無論采用(yòng)哪種  的(de)先驗分(fēn)布,當噪聲信号個(gè)數  增多(duō)時(shí)(取值從 25 上升至 5000),原始信号爲真的(de)後驗概率随之而降低,體現了(le)頻(pín)率主義方法中對(duì)多(duō)重假設檢驗的(de)懲罰。


f2.png


雖然完整的(de)貝葉斯框架聽(tīng)上去很不錯,但實操起來(lái)也(yě)有很多(duō)問題。首先正如前文所述,它的(de)假設(尤其條件獨立性方面的(de)假設)太過苛刻。第二就是計算(suàn)方面的(de)問題,當同時(shí)考慮的(de)因子個(gè)數很多(duō)時(shí),計算(suàn)每個(gè)因子爲真的(de)後驗概率極具挑戰。


最小貝葉斯因子


第二篇要談的(de)文章(zhāng)是 Harvey (2017),即 Campbell Harvey 在 AFA 年會做(zuò)的(de)主席演講。該文通(tōng)過貝葉斯統計和(hé)原始 p-value,構造了(le)一個(gè)後驗貝葉斯 p-value[3]。由貝葉斯統計可(kě)知,先驗機會比(prior odds ratio)、後驗機會比(posterior odds ratio)以及貝葉斯因子(Bayes factor)之間滿足如下(xià)關系:


  


在我們的(de)上下(xià)文中,令  和(hé)  代表關于因子預期收益率的(de)原假設和(hé)備擇假設,則 Bayes factor 定義爲兩個(gè)似然函數之比


  


  表示  的(de)參數。在檢驗因子預期收益率時(shí),通(tōng)常原假設爲零,因此可(kě)以将  寫成  。但是對(duì)于備擇假設,爲了(le)讓分(fēn)析更具一般性,往往認爲在  下(xià),對(duì)應的(de)參數  服從先驗分(fēn)布  。在這(zhè)種情況下(xià),其似然函數爲  ,因此 Bayes factor 可(kě)以變爲


  


毫無疑問,對(duì)于檢驗因子來(lái)說,後驗機會比是我們真正關注的(de)問題。因爲它告訴我們原假設和(hé)備擇假設後驗概率的(de)高(gāo)低 —— 一個(gè)特别低的(de)後驗機會比意味著(zhe)原假設的(de)後驗概率很低,因此我們可(kě)以安全地拒絕原假設,即認爲因子是真實的(de)。不過,想要計算(suàn)後驗機會比,就必須要先算(suàn)出 Bayes factor。但從上面的(de)定義可(kě)知,計算(suàn) Bayes factor 需要我們指定備擇假設下(xià)的(de)先驗分(fēn)布,但這(zhè)往往非常困難。不過好消息是,在衆多(duō) Bayes factor 的(de)取值中,有一個(gè)特殊的(de)取值,它就是 Harvey (2017) 提出的(de)最小貝葉斯因子(minimum Bayes factor,MBF)。


爲了(le)直觀理(lǐ)解 MBF,我們來(lái)回顧一下(xià)


  


上式可(kě)以理(lǐ)解爲,對(duì)于  和(hé)  來(lái)說,我們從先驗機會比出發,通(tōng)過(乘以)Bayes factor 得(de)到後驗機會比。當給定先驗機會比時(shí),Bayes factor 越小(因而後驗機會比越低),則說明(míng)相對(duì)于先驗,我們在後驗中對(duì)原假設仍然持有的(de)信念就越弱;Bayes factor 越大(dà)(因而後驗機會比越高(gāo)),則說明(míng)相對(duì)于先驗,我們在後驗中對(duì)原假設仍然持有的(de)信念就越強。因此,Bayes factor 衡量了(le),在我們看到樣本數據之後,會在多(duō)大(dà)程度上偏離先驗機會比,而 MBF 提供了(le)對(duì)于原假設來(lái)說最強烈程度的(de)偏離。


MBF is the Bayes factor that provides the strongest evidence against the null hypothesis.


直觀理(lǐ)解 MBF 之後,我們便能夠順水(shuǐ)推舟地搞懂(dǒng)如何計算(suàn)它,因爲 MBF 對(duì)應著(zhe)一個(gè)特殊的(de)備擇假設下(xià)的(de)先驗分(fēn)布。考慮下(xià)面這(zhè)個(gè)例子,假設我們有 1000 個(gè)收益率觀測值,其樣本均值爲 4%。假設先驗機會比爲 3/7,即先驗中我們認爲原假設爲真的(de)概率是 30%。那麽在什(shén)麽情況下(xià)我們會得(de)到 MBF 呢(ne)?這(zhè)個(gè)問題的(de)答(dá)案是:在備擇假設的(de)先驗分(fēn)布中,所有的(de)數據都集中在 4% 這(zhè)個(gè)樣本均值:


It occurs when the density of the prior distribution of alternative hypothesis concentrates at the maximum likelihood estimate of data.


通(tōng)過以上論述可(kě)知,MBF 允許我們計算(suàn)原假設後驗概率的(de) lower bound,更關鍵的(de)是它回答(dá)的(de)是人(rén)們真正關心的(de)問題,即給定數據時(shí)原假設爲真的(de)條件概率是多(duō)少。利用(yòng)原始 p-value 或者 t-statistic,我們可(kě)以很容易地計算(suàn)出 MBF(Harvey 2017 給出了(le)兩種計算(suàn)方法)。此外,利用(yòng)  并經過簡單代數運算(suàn),可(kě)以方便的(de)求出原假設的(de)後驗概率,Harvey (2017) 稱其爲 Bayesianized p-value:


  


爲了(le)在實際操作中應用(yòng) Bayesianized p-value,除了(le)需要知道 MBF 之外,還(hái)需要指定 prior odds ratio。爲此 Harvey (2017) 給出了(le)一些經驗法則:(1)對(duì)于一看就沒什(shén)麽道理(lǐ)的(de)因子,prior odds ratio = 49:1;(2)對(duì)于似是而非的(de)因子,prior odds ratio = 4:1;(3)對(duì)于具備經濟學理(lǐ)論依據的(de)因子,prior odds ratio = 1:1。相比于本文介紹的(de)完整貝葉斯框架,基于 MBF 的(de)方法更具可(kě)操作性。


Double-Bootstrap


最後是 Harvey and Liu (2020)。這(zhè)篇文章(zhāng)(以及其後續文章(zhāng) Harvey and Liu 2021)也(yě)并非傳統意義上的(de)貝葉斯方法,但是它們都通(tōng)過一個(gè)先驗參數  控制真實因子的(de)比例。《出色不如走運(V)?》一文已經對(duì) Harvey and Liu (2020) 進行了(le)詳細的(de)介紹。之所以再次提它,原因是搞懂(dǒng)這(zhè)篇文章(zhāng)中關于  的(de)貝葉斯解釋(下(xià)圖)正是促使我對(duì)這(zhè)系列文章(zhāng)進行梳理(lǐ)并寫下(xià)此文的(de)原因。


f3.png


希望至此,你也(yě)和(hé)我一樣,不再有困惑。


我個(gè)人(rén)很喜歡 Harvey and Liu (2020) 的(de) double-bootstrap 框架,也(yě)基于它做(zuò)了(le)很多(duō)實證分(fēn)析。該方法通(tōng)過引入  和(hé) double-bootstrap 讓人(rén)們表達先驗,并且在控制 Type I error rate 的(de)同時(shí)也(yě)能夠權衡 Type II error rate。這(zhè)在 Type II error 的(de)成本越來(lái)越高(gāo)的(de)今天顯得(de)尤爲重要。


結束語


本文借 Campbell Harvey 的(de)幾篇文章(zhāng)梳理(lǐ)了(le)貝葉斯統計在 p-hacking 問題上的(de)應用(yòng)。需要強調的(de)是,全文并沒有強調貝葉斯方法就比頻(pín)率主義方法更好(或更差)。隻不過對(duì)于需要注入經濟學理(lǐ)論的(de)實證資産定價研究來(lái)說,利用(yòng)合理(lǐ)的(de)先驗,并回答(dá)正确的(de)問題(不要再盯著(zhe) p-value 尤其是 p-hacking 出來(lái)的(de) p-value 不放),注定能夠帶給我們一些新的(de)思考和(hé)啓發。


Harvey and Liu (2021) 的(de)分(fēn)析表明(míng),由于我們隻觀測到了(le)被發表的(de)因子,而不知道人(rén)們到底嘗試了(le)多(duō)少因子,因此這(zhè)個(gè)問題是未識别的(de)(lack of identification)。而正因如此,對(duì) p-hacking 的(de)研究确實存在主觀的(de)一面。與其深究各種(存在問題的(de))貝葉斯方法,不如承認這(zhè)個(gè)計量上的(de)系統問題,并通(tōng)過合理(lǐ)的(de)先驗得(de)到令人(rén)信服的(de)結論。



備注:

[1] 見 https://www.tandfonline.com/toc/utas20/73/sup1

[2] 見《常見多(duō)重檢驗方法及其實證 (I)》

[3] 見《在追逐 p-value 的(de)道路上狂奔,卻在科學的(de)道路上漸行漸遠(yuǎn)》



參考文獻

Chordia, T., A. Goyal, and A. Saretto (2020). Anomalies and false rejections. Review of Financial Studies 33(5), 2134 – 2179.

Harvey, C. R. (2017). Presidential address: The scientific outlook in financial economics. Journal of Finance 72(4), 1399 – 1440.

Harvey, C. R. and Y. Liu (2020). False (and missed) discoveries in financial economics. Journal of Finance 75(5), 2503 – 2553.

Harvey, C. R. and Y. Liu (2021). Uncovering the iceberg from its tip: A model of publication bias and p-hacking. Working paper.

Harvey, C. R., Y. Liu, and A. Saretto (2020). An evaluation of alternative multiple testing methods for finance applications. Review of Asset Pricing Studies 10(2), 199 – 248.

Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies 29(1), 5 – 68.

Scott, J. G. and J. O. Berger (2006). An exploration of aspects of Bayesian multiple testing. Journal of Statistical Planning and Inference 136(7), 2144 – 2162.

Wasserstein, R. L., A. L. Schirm, and N. A. Lazar (2019). Moving to a world beyond “p<0.05”. The American Statistician 73(sup1), 1 – 19.



免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。