頂刊上的(de)另類數據與股票(piào)收益研究
發布時(shí)間:2021-03-02 | 來(lái)源: 川總寫量化(huà)
作者:石川
摘要:另類數據的(de)實證資産定價應用(yòng)(也(yě)許)還(hái)有很長(cháng)的(de)路要走。
1 引言
一年前的(de)今天,我寫了(le)一篇《另類數據的(de)前景和(hé)陷阱》,抛磚引玉討(tǎo)論了(le)對(duì)另類數據的(de)看法。而近年來(lái),學術界在将另類數據引入實證資産定價方面也(yě)幹得(de)熱(rè)火朝天,很多(duō)研究被發表在頂級期刊上。本文就對(duì)一些我印象比較深刻的(de)(包括好的(de)印象、中立的(de)印象以及不那麽好的(de)印象)研究成果進行梳理(lǐ)。按照(zhào)所使用(yòng)的(de)另類數據類别,研究成果大(dà)體上可(kě)以被四類:Crowdsourced data,Textual data,Trading account data 以及各種 Lead-lag effect(最後這(zhè)一種也(yě)往往被視作準另類數據)。下(xià)文将依次說明(míng)。
在本文的(de)最後,我們也(yě)不妨來(lái)“上個(gè)價值”。最近兩年,一個(gè)非常強烈的(de)感受是在頂刊上發表實證文章(zhāng)越來(lái)越難(哦,除非你是 Editor 的(de)朋友,正如坊間流傳的(de) JFE = Journal of Friends of Editor;越來(lái)越多(duō)的(de)實證文章(zhāng) —— 不限于使用(yòng)了(le)另類數據的(de) —— 感覺能發到頂刊上隻是因爲是大(dà)佬寫的(de))。而如果要問有什(shén)麽方法讓在頂刊發文變得(de)稍微容易那麽一丁點,使用(yòng)另類數據一定是個(gè)不錯選擇。但另類數據集通(tōng)常要麽不是公開的(de),要麽涉及十分(fēn)繁雜(zá)的(de)數據處理(lǐ);且一些數據集本身的(de)可(kě)靠性和(hé)數據質量也(yě)存疑。這(zhè)些問題的(de)存在使得(de)另類數據更有可(kě)能成爲孕育 p-hacking 的(de)溫床,削弱研究的(de)可(kě)複制性和(hé)穩健性。本文的(de)最後就對(duì)此進行一些探討(tǎo)。
2 Crowdsourced Data
第一類另類數據是 crowdsourced data,代表作是 Green et al. (2019) 和(hé) Da, Huang and Jin (2021),均發表在 JFE 上。在我看來(lái) crowdsourced data 的(de)一大(dà)問題是數據的(de)生成(采集)過程是否 unbiased,能否很好的(de)代表總體。Green et al. (2019) 使用(yòng) Glassdoor.com 數據研究了(le)員(yuán)工對(duì)雇主的(de)評價與股票(piào)收益率之間的(de)關系([因子動物(wù)園] 的(de)文章(zhāng)《烏合之衆 or 群衆的(de)智慧:員(yuán)工評價與股票(piào)收益》對(duì)該文進行了(le)詳細介紹),發現評分(fēn)變化(huà)高(gāo)低能夠預測股票(piào)的(de)預期收益。在《另類數據的(de)前景和(hé)陷阱》一文中,曾經介紹過該文,并對(duì) Glassdoor.com 數據可(kě)能存在的(de)問題進行了(le)討(tǎo)論。
Da, Huang and Jin (2021) 則使用(yòng)了(le) Forcerank App 上散戶對(duì)股票(piào)的(de)周度評分(fēn),研究了(le)投資者過度外推信仰和(hé)未來(lái)股票(piào)收益率之間的(de)負相關。然而,受制于數據限制,該文的(de)樣本僅從 2016/2 到 2017/12,涉及不到 300 支股票(piào)和(hé)将将 1000 個(gè)用(yòng)戶。雖然實證研究本身沒有任何問題(solid,且作者給出了(le)理(lǐ)論模型來(lái)支持實證結果)且作者也(yě)強調了(le)這(zhè)些用(yòng)戶無法代表所有交易這(zhè)些股票(piào)的(de)投資者,但我們還(hái)是對(duì)該研究在多(duō)大(dà)程度上能夠推廣到全市場(chǎng)的(de)所有股票(piào)存有疑問。而“雪(xuě)上加霜”的(de)是,當我試圖訪問 Forcerank 一探究竟時(shí),發現它已經停止運營了(le)。
3 Textual Data
随著(zhe)機器學習(xí)算(suàn)法的(de)普及,對(duì)文本數據的(de)研究早已成爲了(le)學術界的(de)“必争之地”。近年來(lái),通(tōng)過分(fēn)析上市公司财報中的(de)文本信息來(lái)研究股票(piào)收益率的(de)研究也(yě)屢見不鮮,其中最有代表性的(de)一篇當屬發表在 JF 上的(de) Lazy Prices(Cohen, Malloy and Nguyen (2020))。該文分(fēn)析了(le)美(měi)股上市公司季報和(hé)年報中的(de)文本措辭變化(huà)是否和(hé)股票(piào)收益率有關。正如其标題揭示的(de)那樣,該文發現改動越少的(de)公司未來(lái)的(de)預期收益越高(gāo)。通(tōng)過做(zuò)多(duō)改動少的(de)公司、做(zuò)空改動多(duō)的(de)公司,該投資組合可(kě)以獲得(de)超過 20% 的(de)年化(huà)超額收益。這(zhè)篇文章(zhāng)的(de)精彩之處在于對(duì)背後機制的(de)討(tǎo)論。Cohen, Malloy and Nguyen (2020) 發現财報中措辭變動背後的(de)原因通(tōng)常是以下(xià)幾種:more negative sentiment、higher uncertainty、more litigiousness 以及 CEO/CFO changes。這(zhè)些原因往往意味著(zhe)公司的(de)運營面臨更高(gāo)的(de)風險和(hé)不确定性。
除此之外,該文更進一步揭示了(le)财報中的(de)哪些 sections 發生的(de)措辭變化(huà)最爲關鍵,爲後續進一步的(de)深入研究奠定了(le)很好的(de)基礎。其中一個(gè)值得(de)多(duō)唠叨兩句的(de) section 是美(měi)股年報中的(de) Item 1A:Risk Factors。之所以單提它,是因爲它讓我想起了(le)另一篇利用(yòng) Natural Language Processing 研究财報的(de)文章(zhāng),而該文研究的(de)對(duì)象恰好就是年報中的(de) Risk Factors 一節(Lopez-Lira (2020))。順便一提,Lopez-Lira (2020) 尚未被發表,還(hái)是一篇 working paper。Lopez-Lira (2020) 使用(yòng) Latent Dirichlet Allocation(LDA)從 Risk Factors 一節提取出 25 個(gè) risk topics。通(tōng)過進一步分(fēn)析發現其中有一些可(kě)以代表不同公司面臨的(de)系統性風險,且這(zhè)些系統性風險因子(risk topics)中有一些是被定價的(de);基于這(zhè)些因子構造的(de)多(duō)因子模型的(de)定價能力不亞于傳統的(de) Fama-French 三/五因子模型。感興趣的(de)小夥伴不妨找來(lái)一讀。
4 Trading Account Data
下(xià)一類另類數據是利用(yòng)散戶投資者(retail investors)的(de)交易數據,研究成果有助于 retail investors 糾正錯誤的(de)交易習(xí)慣。這(zhè)類數據通(tōng)常是非公開的(de),相關的(de)代表論文包括 Barber and Odean (2000)、Boehmer, Jones and Zhang (2008)、Kaniel, Saar and Titman (2008)、Kelley and Tetlock (2013) 以及 Barrot, Kaniel and Sraer (2016)。
其中,Barber and Odean (2000) 所用(yòng)的(de)包含約 78,000 個(gè)賬戶的(de)交易數據集非常有名(被稱爲 Odean dataset),它在後來(lái)針對(duì) retail investors 以及行爲金融學的(de)相關研究中得(de)到了(le)廣泛的(de)應用(yòng)。比如 An (2016) 這(zhè)篇發表在 RFS 上的(de)文章(zhāng)。該文受 Ben-David and Hirshleifer (2012) 啓發,進一步研究了(le) V-shaped selling pressure,即高(gāo)浮盈和(hé)高(gāo)浮虧都會面臨更大(dà)的(de)抛壓,因而這(zhè)些股票(piào)未來(lái)的(de)預期收益率更高(gāo)。該文在此猜想上提出了(le)新的(de)變量來(lái)代替傳統的(de) CGO(CGO 見《參考點依賴與市場(chǎng)異象》)。雖然該文的(de)實證中使用(yòng)收益率和(hé)交易量來(lái)構造變量,但是在 promote 研究動機的(de)環節,它使用(yòng)了(le) Odean 數據集的(de)真實交易數據來(lái)證實了(le)猜想的(de)正确性。
使用(yòng)賬戶交易數據的(de)最大(dà)問題在于數據集是非公開的(de)。這(zhè)使得(de)相關研究難以被複現或擴展。本節第一段羅列的(de)那些論文均存在這(zhè)個(gè)問題。不過,這(zhè)個(gè)問題在一篇 JF forthcoming 的(de)文章(zhāng)(Boehmer et al. (2021))中得(de)到了(le)有效的(de)改善。和(hé)上述研究不同的(de)是,Boehmer et al. (2021) 并沒有使用(yòng)賬戶數據,而是通(tōng)過算(suàn)法從所有交易數據中有效識别出散戶的(de)交易數據。因此該文的(de)發現更具代表性,且該識别算(suàn)法也(yě)會有更廣泛的(de)應用(yòng)價值。
5 Lead-lag effect
最後一類常見的(de)(準)另類數據是各種“花式”動量,即各種領先-滞後關系(lead-lag effect)。這(zhè)可(kě)能是最具應用(yòng)前景的(de)另類數據之一。下(xià)表展示了(le)發表在頂刊上的(de)各種 lead-lag effects。前文《獲取 α 的(de)新思路:科技關聯度》對(duì) Lee et al. (2019) 做(zuò)過詳細介紹(這(zhè)裏插一句:McLemore et al. (2021) 把科技關聯度應用(yòng)到了(le)公募基金表現的(de)研究中,也(yě)頗有意思);[因子動物(wù)園] 的(de)《關聯度動量的(de)秘密:分(fēn)析師共同覆蓋》對(duì) Parsons, Sabbatucci and Titman (2020) 的(de)地理(lǐ)動量以及 Ali and Hirshleifer (2020) 的(de)分(fēn)析師共同覆蓋做(zuò)過解讀。
在上表中的(de)各種 lead-lag effects 中,Ali and Hirshleifer (2020) 在提出分(fēn)析師共同覆蓋導緻的(de)關系的(de)同時(shí),順便也(yě)“敲打”了(le)一下(xià)其他(tā)常見的(de)關系。他(tā)們發現,一旦控制了(le)分(fēn)析師共同覆蓋,其他(tā)關系變無法獲得(de)顯著超額收益了(le);而反過來(lái),其他(tā)關系無法解釋分(fēn)析師共同覆蓋的(de)超額收益。綜合二者,他(tā)們指出分(fēn)析師共同覆蓋才是各種 lead-lag effects 背後的(de)原因。
下(xià)表總結了(le)分(fēn)析師共同覆蓋在 A 股上的(de)實證結果:在小市值、大(dà)市值以及全市場(chǎng),均存在分(fēn)析師共同覆蓋效應。
總結一下(xià),各種企業間關聯的(de)收益來(lái)源是投資者對(duì)企業間關聯信息的(de)注意力不足,導緻反應不足。此外,企業間關聯效應也(yě)對(duì)公司未來(lái)基本面的(de)變化(huà)有預測能力。這(zhè)類數據大(dà)多(duō)公開可(kě)得(de),因此具備進一步系統研究的(de)基礎,且實證結果表明(míng)在 A 股上具備應用(yòng)前景。離開本節之前,另一篇值得(de)一提的(de)文章(zhāng)是 Gofman, Segal and Wu (2020)。該文研究了(le) production networks 和(hé)股票(piào)收益的(de)關系,發現上遊公司的(de)技術進步會使得(de)下(xià)遊公司的(de)現有資産價值降低,且上遊公司和(hé)下(xià)遊客戶在 network 中的(de)距離越遠(yuǎn),其預期收益越高(gāo)。這(zhè)個(gè)研究爲将産業鏈知識圖譜應用(yòng)于資産定價提供了(le)新思路。
6 我們需要什(shén)麽樣的(de)研究 ?
以上 2 – 5 節簡要梳理(lǐ)了(le)一些代表性的(de)将另類數據應用(yòng)于實證資産定價的(de)研究。很多(duō)研究在剛被提出的(de)時(shí)候确實很吸引人(rén),但随著(zhe)時(shí)間的(de)推移,當我們掌握了(le)越來(lái)越多(duō)的(de)研究“套路”後,總是忍不住發問:我們到底需要什(shén)麽樣的(de)研究?我想可(kě)以從兩個(gè)角度回答(dá)這(zhè)個(gè)問題。首先,面對(duì)另類數據,人(rén)們并不需要“投機取巧”挖出來(lái)的(de) new anomalies。另類數據的(de)真正價值是人(rén)們通(tōng)過新數據,從新視角理(lǐ)解哪些系統性風險能夠驅動資産收益率的(de)變化(huà)。其次就是強調學術研究的(de)可(kě)複制性。這(zhè)讓我想起 Harvey (2019) 在 Critical Finance Review 這(zhè)個(gè)新期刊上的(de)大(dà)聲疾呼。這(zhè)個(gè)期刊倒是很符合本文的(de)主題;和(hé)金融學領域的(de)其他(tā)期刊相比,CFR 足夠另類。在其官網主頁赫然寫著(zhe)期刊宗旨:Not just replicability, but actual replication!
在 2010 年 Campbell Harvey 身爲 JF editor 的(de)時(shí)候,他(tā)聯合了(le) RFS 以及 JFE 的(de) editors,希望敦促頂刊(以及其他(tā)期刊)采納數據和(hé)代碼共享原則。Harvey 的(de)提議(yì)在期刊編輯和(hé)金融學 big names 之間得(de)到了(le)討(tǎo)論,至于結果……
“The initiative failed.”
其中最主要的(de)反對(duì)之聲在于這(zhè)麽做(zuò)的(de)成本太高(gāo)。此外,學術界“樸素”地認爲不共享數據或代碼并未造成什(shén)麽嚴重的(de)後果。
By far the most important pushback was the cost imposed on authors. … Indeed, there were powerful testimonials from top academics about their nightmarish experiences in sharing data. Many believed we did not have a problem. Why impose a costly 'fix' to something that was not broken?
對(duì)于另類數據來(lái)說,可(kě)複制性無疑面臨更大(dà)挑戰。然而正如 [因子動物(wù)園] 的(de)文章(zhāng)《可(kě)複制的(de)因子研究》闡釋的(de)那樣,有兩個(gè)原因使得(de)因子研究的(de)可(kě)複制性非常重要:
1. 可(kě)複制性可(kě)以确保後續研究有良好的(de)基礎,而不至于在錯誤的(de)問題上越陷越深;
2. 實證資産定價的(de)研究方法相對(duì)标準化(huà),因此不同研究者重複造輪子的(de)工作,是一種巨大(dà)的(de)浪費。
除了(le)這(zhè)兩點,強調可(kě)複制性也(yě)能夠提高(gāo)論文的(de)質量,減少金融學研究中諸如 p-hacking、HARKing 等行爲不端(見《Campbell Harvey: Tortured Data》)。對(duì)于另類數據以及其他(tā)實證資産定價研究來(lái)說,雖然共享數據和(hé)代碼有很大(dà)的(de)代價且困難重重,但是正如 Harvey (2019) 所主張的(de)那樣,它帶來(lái)的(de)好處遠(yuǎn)遠(yuǎn)超過其代價。
可(kě)複制性永遠(yuǎn)是學術研究的(de)唯一生命力;而另類數據的(de)實證資産定價應用(yòng)也(yě)還(hái)有很長(cháng)的(de)路要走。
參考文獻
Ali, U. and D. Hirshleifer (2020). Shared analyst coverage: Unifying momentum spillover effects. Journal of Financial Economics 136(3), 649 – 675.
An, L. (2016). Asset pricing when traders sell extreme winners and losers. Review of Financial Studies 29(3), 823 – 861.
Barber, B. M. and T. Odean (2000). Trading is hazardous to your wealth: The common stock investment performance of individual investors. Journal of Finance 55(2), 773 – 806.
Barrot, J.-N., R. Kaniel, and D. Sraer (2016). Are retail traders compensated for providing liquidity? Journal of Financial Economics 120(1), 146 – 168.
Ben-David, I. and D. Hirshleifer (2012). Are investors really reluctant to realize their losses? Trading responses to past returns and the disposition effect. Review of Financial Studies 25(8), 2485 – 532.
Boehmer, E., C. M. Jones, and X. Zhang (2008). Which shorts are informed? Journal of Finance 63(2), 491 – 527.
Boehmer, E., C. M. Jones, X. Zhang, and X. Zhang (2021). Tracking retail investor activity. Journal of Finance forthcoming.
Cohen, L. and A. Frazzini (2008). Economic links and predictable returns. Journal of Finance 63(4), 1977 – 2011.
Cohen, L. and D. Lou (2012). Complicated firms. Journal of Financial Economics 104(2), 383 – 400.
Cohen, L., C. Malloy, and Q. Nguyen (2020). Lazy prices. Journal of Finance 75(3), 1371 – 1415.
Da, Z., X. Huang, and L. Jin (2021). Extrapolative beliefs in the cross-section: What can we learn from the crowds? Journal of Financial Economics forthcoming.
Gofman, M., G. Segal, and Y. Wu (2020). Production networks and stock returns: The role of vertical creative destruction. Review of Financial Studies 33(12), 5856 – 5905.
Green, T. C., R. Huang, Q. Wen, and D. Zhou (2019). Crowdsourced employer reviews and stock returns. Journal of Financial Economics 134(1), 236 – 251.
Harvey, C. R. (2019). Editorial: Replication in financial economics. Critical Finance Review 8(1-2), 1 – 9.
Hou, K. (2007). Industry information diffusion and the lead-lag effect in stock returns. Review of Financial Studies 20(4), 1113 – 1138.
Kaniel, R., G. Saar, and S. Titman (2008). Individual investor trading and stock returns. Journal of Finance 63(1), 273 – 310.
Kelley, E. K. and P. C. Tetlock (2013). How wise are crowds? Insights from retail orders and stock returns. Journal of Finance 68(3), 1229 – 1265.
Lee, C. M. C., S. Teng, R. Wang, and R. Zhang (2019). Technological links and predictable returns. Journal of Financial Economics 132(3), 76 – 96.
Lopez-Lira, A. (2020). Risk factors that matter: Textual analysis of risk disclosures for the cross-section of returns. Working paper.
McLemore, P., R. Sias, C. Wan, and H. Z. Yuksel (2021). Active technological similarity and mutual fund performance. Journal of Financial and Quantitative Analysis forthcoming.
Parsons, C. A., R. Sabbatucci, and S. Titman (2020). Geographic lead-lag effects. Review of Financial Studies 33(10), 4721 – 4770.
免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。