出色不如走運 (VII) ?
發布時(shí)間:2022-03-05 | 來(lái)源: 川總寫量化(huà)
作者:石川
摘要:Bayesian approach to multiple tests.
1 引言
p-value,這(zhè)個(gè)人(rén)們在檢驗因子和(hé)異象收益率時(shí)繞不過的(de)指标,正逐漸退去“光(guāng)環”。
2019 年,美(měi)國統計協會的(de)官方期刊 The American Statistician 推出了(le)一期名爲 Statistical Inference in the 21st Century: A World Beyond p < 0.05 的(de)專刊[1],用(yòng)多(duō)達 40 篇文章(zhāng)“聲討(tǎo)”了(le) p-value 如何被錯誤使用(yòng),并給出了(le)可(kě)行的(de)替代辦法。事實上,美(měi)國統計協會對(duì) p-value 的(de)“敲打”由來(lái)已久,而很多(duō)頂級期刊,包括 Econometrica 和(hé) American Economic Review,也(yě)都已經在其期刊 policy 裏寫明(míng)不鼓勵使用(yòng)人(rén)們熟悉的(de)小星星 —— *、**、*** —— 來(lái)表示統計顯著性。然而在這(zhè)期專刊中,美(měi)國統計協會更是直接建議(yì)禁止使用(yòng)“統計上顯著”。
我們不難理(lǐ)解美(měi)國統計協會的(de)這(zhè)個(gè)主張(對(duì)于他(tā)們的(de)論述請自行查閱原文,這(zhè)個(gè)專刊都是 open access)。當人(rén)們過度強調統計顯著性時(shí),自然而然的(de)就把 p-value 推到了(le)聚光(guāng)燈之下(xià)。從研究來(lái)看,一個(gè) p-value = 0.049 的(de)結果和(hé)另一個(gè) p-value = 0.051 的(de)結果也(yě)許沒有太大(dà)差别,但是一旦人(rén)們意識到前者可(kě)以被加上 ** 而後者通(tōng)常隻能被加上一個(gè) * 的(de)時(shí)候(從而增加論文被發表的(de)幾率),一切就發生了(le)變化(huà)。人(rén)們會有意識(或無意識)地操縱數據、朝著(zhe)兩個(gè) ** 而努力,而這(zhè)就引出了(le)《出色不如走運》系列的(de)主題 p-hacking。而多(duō)重假設檢驗的(de)存在,無疑更是讓 p-hacking 雪(xuě)上加霜。
爲了(le)降低 p-hacking 的(de)影(yǐng)響,我們在研究因子和(hé)異象的(de)時(shí)候需要考慮多(duō)重假設檢驗問題。《出色不如走運》系列的(de)前幾篇文章(zhāng)介紹了(le)實證資産定價領域這(zhè)方面最新的(de)研究成果,例如 Chordia, Goyal and Saretto (2020) 以及 Harvey and Liu (2020) 等。此外,Harvey, Liu and Saretto (2020) 一文則回顧了(le)更爲常見的(de) Bonferroni、Holm 以及 StepM 等方法[2]。
不過,以上介紹的(de)大(dà)部分(fēn)方法,都是頻(pín)率主義方法。這(zhè)些方法依賴于引入 overall error rates(例如 FWER 或 FDR),并以此爲目标調整單一假設檢驗的(de) p-value。與頻(pín)率主義方法相對(duì)應的(de),是貝葉斯方法。顧名思義,貝葉斯方法允許我們引入從經濟學理(lǐ)論得(de)出的(de)關于因子是否爲真的(de)先驗。此外,貝葉斯方法還(hái)自帶奧卡姆剃刀(dāo)效應(Ockham’s razor effect),它能根據同時(shí)被檢驗的(de)因子的(de)個(gè)數自動調整因子爲真的(de)後驗概率(看完下(xià)一節你就會明(míng)白這(zhè)句話(huà)的(de)含義)。
今天我們就通(tōng)過 Campbell Harvey 的(de)幾篇文章(zhāng),給應對(duì) p-hacking 的(de)貝葉斯方法開個(gè)頭。
2 完整的(de)貝葉斯框架
我們從 Harvey, Liu and Zhu (2016) 談起,這(zhè)篇文章(zhāng)把實證資産定價研究中多(duō)重假設檢驗問題的(de)嚴重性擺上了(le)台面,至此之後,人(rén)們也(yě)不再使用(yòng)傳統的(de) t-statistic = 2.0 阈值,而是使用(yòng)更高(gāo)的(de)阈值(例如 3.0)。這(zhè)篇文章(zhāng)的(de)正文介紹的(de)依然是頻(pín)率主義方法。不過,該文的(de)附錄 B 介紹了(le)一個(gè)貝葉斯框架下(xià)的(de) hierarchical model,它是一個(gè)完整的(de)貝葉斯框架。該貝葉斯框架源自 Scott and Berger (2006)。Harvey, Liu and Zhu (2016) 的(de)附錄以及 Scott and Berger (2006) 都非常值得(de)一讀,不過前者是在實證資産定價的(de)角度介紹該 hierarchical model,論述的(de)更清晰一些。
該 hierarchical model 分(fēn)爲三層。
第一層:
其中
在上述模型中,等方差這(zhè)個(gè)假設并沒有聽(tīng)上去那麽不合理(lǐ);例如,在實際中,我們總可(kě)以通(tōng)過調整杠杆來(lái)讓所有因子投資組合等波動。不過,另一個(gè)關鍵假設,即收益率滿足 conditionally IID 則多(duō)少有些苛刻。不過正如 Harvey, Liu and Zhu (2016) 所言,條件獨立性對(duì)于貝葉斯框架和(hé)構造似然函數至關重要。
在上述假設下(xià),似然函數爲(令
第二層:
模型的(de)第一層描繪了(le)在給定
在前兩層的(de)基礎上,爲了(le)使上述貝葉斯框架變得(de)完整,我們還(hái)需要最後一步,即
第三層:
在這(zhè)一步,人(rén)們可(kě)以根據自己的(de)偏好選擇參數的(de)先驗分(fēn)布
對(duì)于
此外,當同時(shí)考察的(de)因子個(gè)數增大(dà)時(shí),我們也(yě)可(kě)以根據先驗知識進一步調整
下(xià)表展示了(le)來(lái)自 Scott and Berger (2006) 的(de)一個(gè)例子。無論采用(yòng)哪種
雖然完整的(de)貝葉斯框架聽(tīng)上去很不錯,但實操起來(lái)也(yě)有很多(duō)問題。首先正如前文所述,它的(de)假設(尤其條件獨立性方面的(de)假設)太過苛刻。第二就是計算(suàn)方面的(de)問題,當同時(shí)考慮的(de)因子個(gè)數很多(duō)時(shí),計算(suàn)每個(gè)因子爲真的(de)後驗概率極具挑戰。
3 最小貝葉斯因子
第二篇要談的(de)文章(zhāng)是 Harvey (2017),即 Campbell Harvey 在 AFA 年會做(zuò)的(de)主席演講。該文通(tōng)過貝葉斯統計和(hé)原始 p-value,構造了(le)一個(gè)後驗貝葉斯 p-value[3]。由貝葉斯統計可(kě)知,先驗機會比(prior odds ratio)、後驗機會比(posterior odds ratio)以及貝葉斯因子(Bayes factor)之間滿足如下(xià)關系:
在我們的(de)上下(xià)文中,令
令
毫無疑問,對(duì)于檢驗因子來(lái)說,後驗機會比是我們真正關注的(de)問題。因爲它告訴我們原假設和(hé)備擇假設後驗概率的(de)高(gāo)低 —— 一個(gè)特别低的(de)後驗機會比意味著(zhe)原假設的(de)後驗概率很低,因此我們可(kě)以安全地拒絕原假設,即認爲因子是真實的(de)。不過,想要計算(suàn)後驗機會比,就必須要先算(suàn)出 Bayes factor。但從上面的(de)定義可(kě)知,計算(suàn) Bayes factor 需要我們指定備擇假設下(xià)的(de)先驗分(fēn)布,但這(zhè)往往非常困難。不過好消息是,在衆多(duō) Bayes factor 的(de)取值中,有一個(gè)特殊的(de)取值,它就是 Harvey (2017) 提出的(de)最小貝葉斯因子(minimum Bayes factor,MBF)。
爲了(le)直觀理(lǐ)解 MBF,我們來(lái)回顧一下(xià)
上式可(kě)以理(lǐ)解爲,對(duì)于
MBF is the Bayes factor that provides the strongest evidence against the null hypothesis.
直觀理(lǐ)解 MBF 之後,我們便能夠順水(shuǐ)推舟地搞懂(dǒng)如何計算(suàn)它,因爲 MBF 對(duì)應著(zhe)一個(gè)特殊的(de)備擇假設下(xià)的(de)先驗分(fēn)布。考慮下(xià)面這(zhè)個(gè)例子,假設我們有 1000 個(gè)收益率觀測值,其樣本均值爲 4%。假設先驗機會比爲 3/7,即先驗中我們認爲原假設爲真的(de)概率是 30%。那麽在什(shén)麽情況下(xià)我們會得(de)到 MBF 呢(ne)?這(zhè)個(gè)問題的(de)答(dá)案是:在備擇假設的(de)先驗分(fēn)布中,所有的(de)數據都集中在 4% 這(zhè)個(gè)樣本均值:
It occurs when the density of the prior distribution of alternative hypothesis concentrates at the maximum likelihood estimate of data.
通(tōng)過以上論述可(kě)知,MBF 允許我們計算(suàn)原假設後驗概率的(de) lower bound,更關鍵的(de)是它回答(dá)的(de)是人(rén)們真正關心的(de)問題,即給定數據時(shí)原假設爲真的(de)條件概率是多(duō)少。利用(yòng)原始 p-value 或者 t-statistic,我們可(kě)以很容易地計算(suàn)出 MBF(Harvey 2017 給出了(le)兩種計算(suàn)方法)。此外,利用(yòng)
爲了(le)在實際操作中應用(yòng) Bayesianized p-value,除了(le)需要知道 MBF 之外,還(hái)需要指定 prior odds ratio。爲此 Harvey (2017) 給出了(le)一些經驗法則:(1)對(duì)于一看就沒什(shén)麽道理(lǐ)的(de)因子,prior odds ratio = 49:1;(2)對(duì)于似是而非的(de)因子,prior odds ratio = 4:1;(3)對(duì)于具備經濟學理(lǐ)論依據的(de)因子,prior odds ratio = 1:1。相比于本文介紹的(de)完整貝葉斯框架,基于 MBF 的(de)方法更具可(kě)操作性。
4 Double-Bootstrap
最後是 Harvey and Liu (2020)。這(zhè)篇文章(zhāng)(以及其後續文章(zhāng) Harvey and Liu 2021)也(yě)并非傳統意義上的(de)貝葉斯方法,但是它們都通(tōng)過一個(gè)先驗參數
希望至此,你也(yě)和(hé)我一樣,不再有困惑。
我個(gè)人(rén)很喜歡 Harvey and Liu (2020) 的(de) double-bootstrap 框架,也(yě)基于它做(zuò)了(le)很多(duō)實證分(fēn)析。該方法通(tōng)過引入
5 結束語
本文借 Campbell Harvey 的(de)幾篇文章(zhāng)梳理(lǐ)了(le)貝葉斯統計在 p-hacking 問題上的(de)應用(yòng)。需要強調的(de)是,全文并沒有強調貝葉斯方法就比頻(pín)率主義方法更好(或更差)。隻不過對(duì)于需要注入經濟學理(lǐ)論的(de)實證資産定價研究來(lái)說,利用(yòng)合理(lǐ)的(de)先驗,并回答(dá)正确的(de)問題(不要再盯著(zhe) p-value 尤其是 p-hacking 出來(lái)的(de) p-value 不放),注定能夠帶給我們一些新的(de)思考和(hé)啓發。
Harvey and Liu (2021) 的(de)分(fēn)析表明(míng),由于我們隻觀測到了(le)被發表的(de)因子,而不知道人(rén)們到底嘗試了(le)多(duō)少因子,因此這(zhè)個(gè)問題是未識别的(de)(lack of identification)。而正因如此,對(duì) p-hacking 的(de)研究确實存在主觀的(de)一面。與其深究各種(存在問題的(de))貝葉斯方法,不如承認這(zhè)個(gè)計量上的(de)系統問題,并通(tōng)過合理(lǐ)的(de)先驗得(de)到令人(rén)信服的(de)結論。
備注:
[1] 見 https://www.tandfonline.com/toc/utas20/73/sup1
[2] 見《常見多(duō)重檢驗方法及其實證 (I)》。
[3] 見《在追逐 p-value 的(de)道路上狂奔,卻在科學的(de)道路上漸行漸遠(yuǎn)》。
參考文獻
Chordia, T., A. Goyal, and A. Saretto (2020). Anomalies and false rejections. Review of Financial Studies 33(5), 2134 – 2179.
Harvey, C. R. (2017). Presidential address: The scientific outlook in financial economics. Journal of Finance 72(4), 1399 – 1440.
Harvey, C. R. and Y. Liu (2020). False (and missed) discoveries in financial economics. Journal of Finance 75(5), 2503 – 2553.
Harvey, C. R. and Y. Liu (2021). Uncovering the iceberg from its tip: A model of publication bias and p-hacking. Working paper.
Harvey, C. R., Y. Liu, and A. Saretto (2020). An evaluation of alternative multiple testing methods for finance applications. Review of Asset Pricing Studies 10(2), 199 – 248.
Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies 29(1), 5 – 68.
Scott, J. G. and J. O. Berger (2006). An exploration of aspects of Bayesian multiple testing. Journal of Statistical Planning and Inference 136(7), 2144 – 2162.
Wasserstein, R. L., A. L. Schirm, and N. A. Lazar (2019). Moving to a world beyond “p<0.05”. The American Statistician 73(sup1), 1 – 19.
免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。