Campbell Harvey: “Tortured Data”

發布時(shí)間:2020-07-08  |   來(lái)源: 川總寫量化(huà)

作者:石川
摘要:If you torture the data long enough, it will confess.


引言


If you torture the data long enough, it will confess. —— Ronald Coase, 1991 年諾貝爾經濟學獎獲得(de)者


上面這(zhè)句話(huà)的(de)直白翻譯是,如果你折磨數據足夠長(cháng)的(de)時(shí)間,它們會招供的(de)。它的(de)隐含意思是,隻要人(rén)們想盡辦法去過拟合,總能得(de)到希望的(de)結論。這(zhè)句話(huà)用(yòng)來(lái)形容今天實證資産定價領域的(de)研究風氣十分(fēn)貼切。近些年,Campbell Harvey 教授舉起了(le)呼籲學術界重視并消滅僞發現的(de)大(dà)旗。無論是他(tā)著名的(de)論文 Harvey, Liu, and Zhu (2016),還(hái)是 2017 年他(tā)在 AFA 年會做(zuò)的(de)主席演講(Harvey 2017,點擊直達推文鏈接),還(hái)是刊發于 Journal of Finance 的(de)最新文章(zhāng) Harvey and Liu (2020),都是關于實證資産定價領域僞發現的(de)問題。而近日,在 Society of Financial Studies(SFS)協會 2020 年會上,Harvey 教授又應邀做(zuò)了(le) keynote,題目就叫 Tortured Data —— 飽受折磨的(de)數據


可(kě)能小夥伴們更熟悉 AFA,而 Society of Financial Studies 的(de)來(lái)頭同樣不小,它是 Review of Financial Studies 背後的(de)協會。據其官網介紹,以會議(yì)論文最終被金融領域三大(dà)頂刊錄用(yòng)比例來(lái)評判,SFS 年會是最佳的(de)金融學會議(yì)。因此,在該會議(yì)上做(zuò) keynote 并再次呼籲僞發現問題,足見其重要性。今天這(zhè)篇小文就來(lái)介紹一下(xià) Harvey 教授的(de)最新演講。由于公衆号之前在這(zhè)方面做(zuò)過一些積累,因此也(yě)會在行文中把相關内容串聯起來(lái)。Harvey 教授指出,出現僞發現的(de)原因包括以下(xià)幾種:


1. 數據挑選

2. 責任下(xià)放

3. 多(duō)重假設檢驗

4. 方法多(duō)樣性

5. 數據操縱


值得(de)一提的(de)是,Harvey 教授在演講中不失诙諧的(de)抨擊了(le)金融以及其他(tā)領域的(de)一些僞發現,并同時(shí)“怼了(le)”學術界和(hé)業界(不乏 big names)。所以,建議(yì)你看完本文也(yě)去看看他(tā)的(de)演講(參考文獻最後有鏈接)。


數據挑選


Harvey 教授通(tōng)過兩個(gè)例子說明(míng)了(le)數據挑選的(de)危害。首先遭到抨擊的(de)是來(lái)自一家知名投資管理(lǐ)公司在 2019 年寫的(de)一篇 white paper,題爲 The overlooked persistence of active outperformance,非常 aggressive。它的(de)意思就是主動管理(lǐ)人(rén)其實能持續的(de)戰勝市場(chǎng),提供 α,但卻被忽視了(le)。


f1.png


一直以來(lái),無論是 Michael Jensen 還(hái)是 John Bogle 都告訴我們,在美(měi)國市場(chǎng)中,平均來(lái)看,主動管理(lǐ)人(rén) fee 後難以獲得(de)超額收益。然而,這(zhè)篇 white paper 卻抛出完全對(duì)立的(de)觀點。那麽,到底是人(rén)們長(cháng)久以來(lái)的(de)看法錯了(le),還(hái)是這(zhè)篇文章(zhāng)有問題?經過仔細檢查,不難發現産生上述分(fēn)歧的(de)原因。在這(zhè)篇 white paper 的(de)摘要中,有下(xià)面這(zhè)句非常重要的(de)話(huà)(下(xià)圖,highlight 的(de)部分(fēn)),它的(de)意思是“如果我們剔除市場(chǎng)中最差的(de) 25% 主動管理(lǐ)策略,那麽最好的(de)四分(fēn)之三戰勝了(le)市場(chǎng)。”


f2.png


f3.png


漂亮!這(zhè)“神”邏輯嚴絲合縫。按照(zhào)這(zhè)個(gè)邏輯推演一下(xià),如果刨除後 50% 的(de)話(huà),剩餘的(de)戰勝市場(chǎng)更多(duō)!Harvey 教授在演講中非常幽默的(de)抛出了(le)他(tā)對(duì)這(zhè)種 data selection 的(de)反應。


f4.png


第二個(gè)例子來(lái)自下(xià)面這(zhè)篇 2014 年的(de)論文。作者不乏 Andrew Ang 這(zhè)樣的(de) big name,而且其中另一位作者是 Harvey 在 Duke 商學院的(de)同事啊。這(zhè)真是……


f5.png


這(zhè)篇文章(zhāng)分(fēn)析了(le) Norwegian Government Pension Fund 的(de)表現,得(de)出的(de)結論是非常優異,隻不過是在下(xià)面這(zhè)個(gè)前提下(xià):


Abstracting from the financial crisis, we conclude that active management of both equity and fixed income has significantly contributed to the returns of the fund.


驚不驚喜?意不意外?它的(de)意思是,如果我們選擇性地遺忘金融危機,這(zhè)個(gè) fund 的(de)表現非常不錯!嗯,除了(le)熊市之外,所有的(de)牛市都非常不錯。簡單點評一下(xià)這(zhè)兩個(gè)例子背後的(de)數據挑選危害。說到底,金融領域的(de)研究屬于“軟”科學,即研究結果依賴于提出怎樣的(de)假設,如何挑選和(hé)處理(lǐ)數據,以及如何分(fēn)析并解釋結果。但刻意的(de)遺漏掉一些數據來(lái)支持自己的(de)觀點,顯然是錯誤的(de)行爲。


責任下(xià)放


産生僞發現的(de)第二個(gè)原因是責任下(xià)放,意思是在研究中我們“無腦(nǎo)”相信别人(rén)的(de)分(fēn)析結果,而不去試圖仔細分(fēn)析其是否爲僞發現。


對(duì)于這(zhè)點,Harvey 舉了(le)他(tā)自己的(de)一個(gè)例子。在他(tā)學術生涯早期的(de)某天晚上 9 點,接到了(le)來(lái)自高(gāo)盛的(de)電話(huà),電話(huà)那頭的(de)人(rén)不是别人(rén),而是大(dà)名鼎鼎的(de) Fischer Black(需要背景知識的(de)小夥伴可(kě)看《Fischer Black》一文)。令他(tā)感到驚訝的(de)是,在這(zhè)通(tōng)電話(huà)之前,二人(rén)從未見過面,因此他(tā)對(duì)于接到 Black 的(de)來(lái)電感到困惑不已。不過,他(tā)的(de)困惑很快(kuài)就被揭開了(le)。Black 開門見山“你 1989 年發表在 Journal of Financial Economics 上的(de)文章(zhāng)有錯誤。”Black 指的(de)是 Harvey (1989) 這(zhè)篇論文。其中 Table 2(下(xià)圖)彙報了(le)一個(gè)時(shí)序回歸模型對(duì)下(xià)期股票(piào)收益率的(de)預測結果。其樣本内的(de)準确性高(gāo)達 R-squared = 7.5%。Black 認爲這(zhè)麽高(gāo)的(de) R-squared 是 overfitting 造成的(de)。


f6.png


震驚之餘,Harvey 感到頗爲無辜;他(tā)馬上反駁了(le) Black 并指出在這(zhè)個(gè)表中,自己僅僅是根據前人(rén)的(de)模型來(lái)彙報了(le)一個(gè) test results,而且他(tā)也(yě)沒有進行任何最大(dà)化(huà) R-squared 的(de)嘗試,因此這(zhè)個(gè)過程中不存在任何的(de)數據操縱或者過拟合。然而,如今 Harvey 教授對(duì)這(zhè)篇 1989 年的(de)論文在樣本外進行了(le)複現(樣本外數據從 1988 年到 2018 年),并得(de)到了(le)完全不同的(de)答(dá)案。在樣本外,預測回歸模型中的(de)一個(gè)重要解釋變量(junk spread)的(de)系數符号竟然發生了(le)變化(huà),且 R-squared 也(yě)下(xià)降到了(le) 1.2% —— 并不顯著。


f7.png


這(zhè)種強烈的(de)對(duì)比表明(míng)了(le)他(tā)最初參照(zhào)前人(rén)研究(因此是責任下(xià)放問題)的(de) test results(R-squared = 7.5%)根本不靠譜。這(zhè)個(gè)例子說明(míng),即便我們非常小心的(de)規避“折磨數據”,但我們相信并依賴的(de)他(tā)人(rén)的(de)研究很可(kě)能早已是“折磨數據”之後的(de)結果。怎麽樣?狠起來(lái),先從自己開始反省。面對(duì)上述責任下(xià)放問題,Harvey 教授非常坦誠的(de)說到:


Looking back in time, this telephone call is ironic given my research agenda is to improve research practices in finance and to call out the data miners.


而“Black was right!”則是 Harvey 教授發自内心的(de)感歎。我們仿佛能看到 Black 鬼魅的(de)微笑(xiào)了(le)。


f8.png


多(duō)重假設檢驗


造成僞發現的(de)第三個(gè)原因是多(duō)重假設檢驗(multiple hypothesis testing),它指的(de)是使用(yòng)同樣的(de)數據同時(shí)檢驗多(duō)個(gè)原假設。在實證資産定價研究中,所有的(de)學者都使用(yòng) CRSP 和(hé) Compustat 的(de)數據來(lái)挖因子,因此總能找到樣本内好使但虛假的(de)發現。關于多(duō)重假設檢驗,公衆号之前的(de)《出色不如走運》系裏文章(zhāng)已經反複討(tǎo)論過了(le),感興趣的(de)小夥伴請查看相關推文(IIIIIIV),此處不再贅述。


在談到多(duō)重假設檢驗的(de)問題時(shí),Harvey 教授把它形象的(de)比喻爲 The Garden of Forking Paths(小徑分(fēn)叉的(de)花園) —— 這(zhè)個(gè)标題也(yě)是阿根廷作家 Jorge Luis Borges 于 1941 年創作的(de)短篇故事。假設我們手裏有 20 個(gè)變量來(lái)構建策略,考慮下(xià)面兩種情況:


1. 從這(zhè) 20 個(gè)變量中随機挑出的(de)第 1 個(gè)就得(de)到了(le)非常好的(de)回測結果;于是我們不再研究剩下(xià) 19 個(gè),并聲稱沒有過拟合、沒有進行多(duō)重假設檢驗;


2. 假設在另一個(gè)平行宇宙中,我們把全部 20 個(gè)變量試了(le)個(gè)遍,才最終找到了(le)第一種情況中的(de)第一個(gè)變量,得(de)到了(le)很好的(de)回測結果。這(zhè)時(shí)我們認爲,因爲一共測了(le) 20 個(gè),因此這(zhè)個(gè)很可(kě)能是因爲運氣,所以過拟合了(le),所以選擇不相信它。


緊接著(zhe)問題來(lái)了(le):這(zhè)兩種情況到底有沒有區(qū)别?第一種情況下(xià)找到的(de)那個(gè)變量是否真的(de)沒有受到多(duō)重假設檢驗的(de)影(yǐng)響?對(duì)于這(zhè)個(gè)問題,Harvey 教授表示:Both findings need to be treated equally. 這(zhè)意味著(zhe),即便在第一種情況下(xià),第一次就挑出的(de)變量依然不能令人(rén)信服,它應和(hé)第二種情況同等對(duì)待。這(zhè)也(yě)同樣說明(míng),變量或者策略的(de)先驗對(duì)于規避多(duō)重假設檢驗影(yǐng)響的(de)重要性。這(zhè)讓我想到 Harvey (2017) 一文提出的(de)貝葉斯後驗 p-value,它無疑更有助于分(fēn)析一個(gè)變量或者策略是否真的(de)有效。關于貝葉斯後驗 p-value,請見《在追逐 p-value 的(de)道路上狂奔,卻在科學的(de)道路上漸行漸遠(yuǎn)》


方法多(duō)樣性


方法多(duō)樣性和(hé)上一節的(de)多(duō)重假設檢驗異曲同工;它指的(de)是使用(yòng)不同的(de)方法來(lái)進行分(fēn)析,并挑出最好的(de)。


If the researcher tries a large enough number of strategy configurations, a backtest can always be fit to any desired performance for a fixed sample length. —— Marcos Lopez de Prado


某日,一家著名的(de)機構找到 Harvey 教授,請他(tā)評價一下(xià)該機構研發的(de)股票(piào)月(yuè)度收益率預測模型。在介紹這(zhè)個(gè)模型之前,讓我們先來(lái)醞釀一下(xià)情緒。回顧下(xià)本文第二節 Harvey (1989) 中的(de)模型,它在 1988 年之前的(de) R-squared 是 7.5%(被 Black 質疑了(le)),而在 1988 到 2018 之間的(de) R-squared 僅爲 1.2%,其在整個(gè)窗(chuāng)口内的(de) R-squared 爲 4%。它的(de)效果是下(xià)面這(zhè)樣,符合我們的(de)認知。


f9.png


再來(lái)看看這(zhè)家著名機構的(de)模型。它們預測了(le)世界上 59 個(gè)國家市場(chǎng)的(de)月(yuè)頻(pín)收益率;模型的(de)特征如下(xià)圖所示。


f10.png


劃一下(xià)關鍵詞:每個(gè)市場(chǎng) 200 個(gè)變量!統計分(fēn)析!最先進的(de)機器學習(xí)算(suàn)法!針對(duì)每個(gè)市場(chǎng),經過兩年 intensive data collection 找到了(le) 200 個(gè)變量,用(yòng)不同的(de)機器學習(xí)算(suàn)法去 fit……再來(lái)看看效果(一定要和(hé) Harvey 1987 對(duì)比!)。用(yòng)該機構自己的(de)話(huà):“處處精準”,“25 個(gè)最大(dà)經濟體市場(chǎng)的(de) R-squared 爲 0.96”,“所有 59 個(gè)市場(chǎng)的(de) R-squared 爲 0.98”。在講到這(zhè)裏時(shí),Harvey 教授又來(lái)了(le)一把 Harvey 式幽默。他(tā)指出最初看到這(zhè)兩個(gè) R-squared 的(de)時(shí)候以爲對(duì)方默認省略了(le)百分(fēn)号,如果是那樣的(de)話(huà),那麽這(zhè)個(gè)複雜(zá)模型和(hé) Harvey (1987) 在樣本外(1988 到 2018)的(de) R-squared = 1.2% 就差不多(duō)。但是他(tā)錯了(le),沒有百分(fēn)号,真的(de)是處處精準。


f11.png


到底有多(duō)精準?2008 年 10 月(yuè)是金融危機時(shí)期的(de)最大(dà)單月(yuè)跌幅,高(gāo)達 -35%。看看在 2008 年 9 月(yuè)模型預測的(de)下(xià)個(gè)月(yuè)收益率是多(duō)少?沒錯,-35%!分(fēn)毫不差!兩個(gè)模型比較一下(xià):


f13.png


當“足夠多(duō)的(de)變量”遇見“足夠複雜(zá)的(de)算(suàn)法”,就碰撞出“精緻的(de)錯誤”。但更令人(rén)稱奇的(de)是,該模型不僅樣本内處處精準,再來(lái)看看該機構給出的(de)樣本外結果,同樣“非凡”。然而,後來(lái)經仔細檢查發現,該模型建模時(shí)已經包含了(le)所謂的(de)樣本外數據,即樣本外并非真正的(de)樣本外。


f14.png


數據操縱(p-hacking)


導緻僞發現的(de)最後一個(gè)原因是 p-hacking,即爲了(le)追求超低 p-value 而進行的(de)數據操縱。


在發表偏差的(de)影(yǐng)響下(xià),學術界都在追求超低 p-value。Harvey, Liu, and Zhu (2016) 分(fēn)析了(le) 1963 年到 2012 年間發表在金融領域最頂級期刊上的(de) 300 多(duō)個(gè)因子模型的(de) t-statistics(p-value 越低,t-statistic 越高(gāo))的(de)分(fēn)布,發現 t-statistic 取值在 2 到 2.57 的(de)文章(zhāng)數和(hé) t-statistic 取值在 2.57 到 3.14 的(de)文章(zhāng)數十分(fēn)接近。


f15.png


然而,t-statistic = 2.57 對(duì)應的(de) p-value 大(dà)概是 0.005;而 t-statistic = 3 對(duì)應的(de) p-value 則是 0.001。顯然,找到 p-value = 0.001 的(de)因子要比找到 p-value = 0.005 的(de)因子要困難得(de)多(duō),但它們的(de)文章(zhāng)數量卻大(dà)緻相當。這(zhè)隻能說明(míng)在頂級期刊發表文章(zhāng)時(shí),學者們傾向于更低的(de) p-value。那麽問題來(lái)了(le):哪那麽容易找到這(zhè)麽多(duō)超低的(de) p-value?答(dá)案是:通(tōng)過數據操縱去湊。而在 p-hacking 方面,金融界和(hé)醫學界相比又是小巫見大(dà)巫。Harvey 教授在演講中舉了(le)一個(gè)著名的(de)例子。一篇來(lái)自 Cornell 大(dà)學、發表于醫學界知名雜(zá)志 JAMA Pediatrics 上的(de)論文指出,在蘋果上貼上卡通(tōng)貼紙,可(kě)以提高(gāo) 8 至 11 歲兒(ér)童在蘋果和(hé)餅幹之間挑選蘋果的(de)概率。


f16.png


這(zhè)篇論文的(de)一作是 Brian Wansink,三作是 Collin Payne。接下(xià)來(lái)就看看這(zhè)二位的(de)表演。該文發表于 2012 年。回顧其研究進程,在 2008 年之前都沒有什(shén)麽确定性的(de)結論,直到 Payne 發給 Wansink 的(de)一封郵件中透露了(le)所謂的(de)“重大(dà)進展”:


f17.png


注意上面括号裏的(de)内容“with a bit more wizardry”,開魔法學校嗎?它指的(de)是,經過一些巧妙的(de)加工,數據就能支持他(tā)們的(de)結論。再來(lái)看看 2012 年 Wansink 的(de)郵件:


f18.png


p-value 隻有 0.06,還(hái)不夠低,需要把數據再“搞一搞”,最好能讓 p-value 到 0.05 以下(xià)。不過最終,他(tā)們也(yě)沒能再進一步降低 p-value,在最終發表的(de)版本中,p-value 仍爲 0.06。令人(rén)欣慰的(de)是,如此大(dà)膽的(de)學術造假最終被發現,而該文也(yě)在 2017 年底被撤回。除了(le) p-hacking 之外,該文更大(dà)的(de)問題是它聲稱使用(yòng)的(de)樣本是 8 至 11 歲的(de)兒(ér)童,但事實卻并非如此……時(shí)至今日,Wansink 已有 18 篇論文被撤回,而他(tā)也(yě)早已因爲學術不端而被 Cornell 掃地出門。從調查其學術不端中發現的(de)一些資料可(kě)以看出,數據操縱以及 p-hacking 已經深深的(de)紮根于這(zhè)位世界著名營養學家的(de)研究價值觀……


f20.png


坦白的(de)說,在 empirical analysis 中,任何人(rén)都會或多(duō)或少的(de)進行一些數據的(de)細分(fēn)或者劃分(fēn),而“數據細分(fēn)”或者“數據劃分(fēn)”本身其實是中性的(de)詞語。但如果它的(de)目的(de)是爲了(le) p-hacking,那麽就很可(kě)能會造成僞發現。這(zhè)是我們應該避免的(de)。


結語


以上五節介紹了(le)産生僞發現的(de)五個(gè)常見原因:數據挑選、責任下(xià)放、多(duō)重假設檢驗、方法多(duō)樣性和(hé) p-hacking。這(zhè)些情況在量化(huà)投資中均會出現,正确的(de)對(duì)待它們就顯得(de)尤爲重要。對(duì)于做(zuò)數據分(fēn)析的(de)人(rén)(包括我自己)來(lái)說,常常挂在嘴邊的(de)一句話(huà)是“Let the data speak”(讓數據發聲)。但事實是數據不會發聲,而是進行數據分(fēn)析的(de)人(rén)通(tōng)過數據發聲。而在這(zhè)背後,又有多(duō)少不同的(de)動機、原因、理(lǐ)由來(lái)追求數據分(fēn)析師希望看到的(de)結論,或者希望講述的(de)故事呢(ne)?最後,讓我用(yòng) Harvey 教授對(duì)投資者的(de)建議(yì)結束本文:


Investors need to be especially vigilant in this era of big data, large number of predictors, a plethora of methods, and the incentives to strategically manipulate the data to uncover a convenient "truth".


寫完本文,我不禁要給 Harvey 教授點贊。但更令我印象深刻的(de)是,Fischer Black was right! Again!



參考文獻

Harvey, C. R. (1989). Time-varying conditional covariances in tests of asset pricing models. Journal of Financial Economics 24(2), 289 – 317.

Harvey, C. R. (2017). Presidential address: The scientific outlook in financial economics. Journal of Finance 72(4), 1399 – 1440.

Harvey, C. R. and Y. Liu (2020). False (and missed) discoveries in financial economics. Journal of Finance 75(5), 2503 2553.

Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies 29(1), 5 – 68.

Harvey 教授演講鏈接:https://iu.mediaspace.kaltura.com/media/1_b70bmzv3

Harvey 教授演講 slides:static/file/Tortured-Data.pdf



免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。