科技關聯度 (II)

發布時(shí)間：2022-10-26 | 來(lái)源: 川總寫量化(huà)

作者：石川

摘要：用(yòng)更先進算(suàn)法和(hé)數據打磨異象已成爲内卷時(shí)代實證研究的(de)無奈之舉。然而在協變量的(de)高(gāo)維數時(shí)代，對(duì)單一異象的(de)精雕細琢又有多(duō)少價值？在另類數據應用(yòng)中，學界是否在越走越窄？

4 年前（whoa, time flies），《科技關聯度》一文介紹了(le) Lee, et al. (2019)。該文指出公司之間以專利類别重合度計算(suàn)的(de)科技關聯度（相似度）可(kě)以帶來(lái)股票(piào)收益率之間的(de)領先—滞後關系，利用(yòng)它可(kě)以獲得(de)傳統因子無法解釋的(de)超額收益。即便到了(le)今天，依然可(kě)以說該文是一篇實證研究的(de)典範。今天的(de)題目是《科技關聯度 (II)》。我想你大(dà)概猜到了(le)，是有人(rén)把計算(suàn)科技關聯度的(de)方法升級了(le)，這(zhè)篇文章(zhāng)就是 Bekkerman, Fich, and Khimich (2022)。該文沒有使用(yòng)專利類别，而是直接對(duì)專利進行文本分(fēn)析，通(tōng)過提取專業術語并計算(suàn)其重合度來(lái)描述公司之間的(de)相似程度。不出意外，升級版科技關聯度“打敗”了(le) Lee, et al. (2019)。這(zhè)體現在當控制了(le) Lee, et al. (2019) 的(de)變量之後，新的(de)變量依舊(jiù)能夠獲得(de)超額收益，而反之則不然。且實證結果指出，在 2000 年之後，Lee, et al. (2019) 的(de)變量逐漸難以獲得(de)超額收益，而新的(de)變量則依然“生機盎然”。

在學界如今内卷的(de)現狀下(xià)，用(yòng)更先進算(suàn)法和(hé)數據打磨異象已成爲實證研究的(de)無奈之舉；而一旦使用(yòng)了(le)更先進的(de)算(suàn)法和(hé)數據，也(yě)就十有八九能找到樣本内更好的(de)超額收益。從這(zhè)個(gè)角度而言，Bekkerman, Fich, and Khimich (2022) 隻是 follow the trend，并無特别之處。然而，該文的(de)一些實證結果和(hé)討(tǎo)論引發了(le)我關于此類領先—滞後關系準另類數據的(de)一些思考。本文就抛磚引玉

在我看來(lái)，Bekkerman, Fich, and Khimich (2022) 一文最重要的(de)實證結果（之一）不是基于新變量的(de) portfolio sort 或 Fama-MacBeth regression 來(lái)表明(míng)異象能夠獲得(de)多(duō)麽顯著的(de)超額收益，而是 Table 2 Panel C。Table 2 Panel C 的(de)結果爲科技關聯的(de)公司之間存在的(de) economic connections 提供了(le)證據；隻有 economic connections 存在，基于科技關聯度構造的(de)異象才站得(de)住腳，否則它大(dà)概率隻是霧裏看花。爲此，Bekkerman, Fich, and Khimich (2022) 從盈利和(hé)科技創新兩方面出發研究了(le)焦點公司和(hé)關聯公司之間的(de)關系。以盈利爲例，該文研究了(le)焦點公司和(hé)關聯公司 ROA 同期的(de)相關性，以及焦點公司 $t+1$ 期 ROA 和(hé)其關聯公司 $t$ 期 ROA 之間的(de)可(kě)預測性關系。對(duì)于科技創新，他(tā)們以 R&D-to-Total Assets 爲變量進行了(le)同樣的(de)分(fēn)析。以下(xià)是實證結果。

以 column (1) 中的(de)回歸結果爲例，其因變量是焦點公司 $t$ 期的(de) $ROA_{i,t}$ ，而最重要的(de)自變量是以科技關聯度爲權重加權得(de)到的(de)和(hé)焦點公司所關聯的(de)那些公司同期的(de) ROA，即 $ROA_{i,t}^{\mbox{TS-text}}$ 。回歸結果顯示， $ROA_{i,t}$ 和(hé) $ROA_{i,t}^{\mbox{TS-text}}$ 的(de)關系在 1% 的(de)顯著性水(shuǐ)平下(xià)顯著。類似地，在 column (2) 的(de)回歸中，因變量變成了(le)焦點公司 $t+1$ 期的(de) $ROA_{i,t+1}$ 。回歸結果表明(míng)， $t$ 期的(de) $ROA_{i,t}^{\mbox{TS-text}}$ 能夠預測焦點公司 $t+1$ 期的(de) $ROA_{i,t+1}$ 。表中 columns (3) 和(hé) (4) 報告了(le) R&D 的(de)結果，可(kě)以得(de)到類似的(de)結論。

可(kě)見，無論是盈利還(hái)是科技創新，焦點公司和(hé)關聯公司同期都有顯著的(de)正相關，此外關聯公司的(de) $t$ 期數據能夠預測焦點公司 $t+1$ 期的(de)數據。上述實證結果表明(míng)了(le)具有科技關聯度的(de)公司之間的(de) economic connections，而這(zhè)些聯系爲 asset pricing 提供了(le)基礎。當然，存在 economic connections 是股票(piào)收益率存在關聯的(de)前提，但它并不足以成爲焦點公司和(hé)關聯公司的(de)股票(piào)收益率之間存在領先—滞後關系的(de)充分(fēn)條件。在這(zhè)個(gè)邏輯鏈條中，我們還(hái)缺乏另外一塊最重要的(de)拼圖——投資者的(de)有限注意力。而這(zhè)正是我最想討(tǎo)論的(de)部分(fēn)（spoiler alert，在下(xià)一節的(de)討(tǎo)論中，我對(duì)所有這(zhè)類因投資者有限注意力導緻的(de)領先—滞後表達了(le)擔憂）。

該文另一個(gè)重要的(de)（且是讓我陷入深深思考的(de)）實證結果是 Table 6 Panel C。在該表中，作者将他(tā)們基于文本計算(suàn)的(de)科技關聯度和(hé) Lee, et al. (2019) 基于專利類别計算(suàn)的(de)科技關聯度進行了(le)比對(duì)，其中 Panels A 和(hé) B 分(fēn)别彙報了(le)兩種計算(suàn)方法的(de)結果，而 Panel C 則基于兩種方法對(duì)滿足條件的(de)股票(piào)進行了(le)細分(fēn)。Panel C 中：

TS-text NOT TS-class 表示基于文本相似，但基于類别不相似；

TS-text AND TS-class 表示基于文本相似，且基于類别相似；

TS-class NOT TS-text 表示基于類别相似，但基于文本不相似。

除此之外，作者不僅考慮了(le) full sample，還(hái)将整個(gè)樣本分(fēn)成了(le)四個(gè)時(shí)間區(qū)間，以此分(fēn)析可(kě)預測性如何随時(shí)間發生變化(huà)。這(zhè)四個(gè)區(qū)間爲1977 – 1986、1987 – 1999、2000 – 2008 和(hé) 2009 – 2016。到此，給自己的(de)“坑”就算(suàn)是挖好了(le)。哦，不對(duì)，是實證設定就做(zuò)好了(le)！在下(xià)面的(de)結果中，最有意思的(de)是在 1977 – 1986 以及 1987 – 1999 這(zhè)兩個(gè)區(qū)間，或統稱爲 2000 年以前，TS-text NOT TS-class（文本相似但是類别不相似）并不能獲得(de)顯著的(de)超額收益；反倒是 2000 以後，它迎來(lái)了(le)大(dà)紅大(dà)紫的(de)黃(huáng)金年代。

這(zhè)樣的(de)實證結果不禁讓人(rén)大(dà)大(dà)的(de)疑惑。Bekkerman, Fich, and Khimich (2022) 對(duì)此的(de)解釋是：1999 年之前，專利數據并沒有被數字化(huà)，因此對(duì)投資者來(lái)說可(kě)以認爲是不可(kě)得(de)的(de)。在 1999 年之後，專利數據被放到了(le)互聯網上，極大(dà)的(de)降低了(le)投資者獲取的(de)難度。他(tā)們猜測這(zhè)就是 TS-text NOT TS-class 在 2000 年之前不好使的(de)原因。看完這(zhè)個(gè)解釋後我更加困惑了(le)。對(duì)于一個(gè)常規的(de)協變量（比如諸多(duō) firm-characteristics），如果變量/數據背後代表的(de) economic connections 存在，那麽它不應該受到數據是否對(duì)投資者可(kě)得(de)而影(yǐng)響，且當沒有投資者使用(yòng)的(de)時(shí)候（也(yě)就更不存在過度套利），這(zhè)種 connections 所帶來(lái)的(de)超額收益應該更高(gāo)，而不是消失（Linnainmaa and Roberts 2018）。也(yě)正因如此，AQR 在 Buffett’s Alpha 一文中才發出“巴菲特才是真的(de)神，我們隻是事後分(fēn)析的(de)凡人(rén)”的(de)感慨。

然而基于 TS-text NOT TS-class 的(de)科技關聯度怎麽就不好使呢(ne)？是上述認知有問題，還(hái)是它并非一個(gè)常規的(de)協變量？是否存在另一種合理(lǐ)的(de)解釋支持“專利數據在 2000 年開始變得(de)可(kě)得(de)導緻了(le)該結果”這(zhè)種說法？Here is the trick.（特别感謝因子動物(wù)園園長(cháng)對(duì)此的(de)討(tǎo)論。）科技關聯度（以及其他(tā)方法計算(suàn)的(de)各種花式相似度）本質上是公司之間的(de)關聯形成的(de)動量效應。邏輯上來(lái)說，是由于投資者注意力有限，沒有注意到隻有完全理(lǐ)性的(de)投資者能認識到的(de)關聯（無論是 Lee, et al. (2019) 還(hái)是這(zhè)篇都有這(zhè)方面的(de)充分(fēn)討(tǎo)論），所以導緻信息擴散緩慢(màn)，進而導緻焦點公司的(de)關聯公司的(de)曆史股票(piào)收益率能夠預測其股票(piào)收益率。

接下(xià)來(lái)，重點來(lái)了(le)！這(zhè)裏的(de)前提是信息擴散緩慢(màn)的(de)原因是投資者注意力不足，而不是投資者完全完全意識不到關聯。注意力不足意味著(zhe)投資者未來(lái)能認識到關聯，因而會有信息的(de)進一步擴散和(hé)關聯動量。而後者意味著(zhe)投資者壓根就看不到關聯的(de)存在，因此也(yě)就沒關聯動量效應了(le)。在這(zhè)個(gè)解釋下(xià)，一切似乎能說通(tōng)了(le)。在 2000 年以前，當專利數據還(hái)沒有廣泛可(kě)得(de)的(de)時(shí)候，投資者根本不知道這(zhè)類數據存在，因此什(shén)麽有限注意力以及由此導緻的(de)公司間動量也(yě)就無從談起。合理(lǐ)嗎？也(yě)許吧，但很難說一點不牽強。這(zhè)似乎在傳遞著(zhe)，所有公司間的(de)花式動量（各種領先—滞後關系）存在的(de)前提都有兩點：1. 投資者意識到了(le)數據的(de)存在；2. 由于投資者有限注意力，因此沒有充分(fēn)利用(yòng)數據，導緻信息緩慢(màn)擴散。它給我一種“觀測到數據，就有 $\alpha$ ；沒有觀測到數據，就沒有 $\alpha$ ”的(de)蒼白。

本文的(de)最後討(tǎo)論一下(xià)升級版科技關聯度擊敗了(le)老版這(zhè)類現象。這(zhè)并非科技關聯度異象特有的(de)現象，而是會出現在任何異象上。随著(zhe)構造數據的(de)豐富和(hé)構造手段的(de)複雜(zá)，叠代後的(de)異象一定會在實證中打敗老的(de)異象。但是，在協變量的(de)高(gāo)維數時(shí)代，精雕細琢一個(gè)異象又有多(duō)少實踐價值（發 paper 的(de)學術價值自然是有）？如果另類數據隻是用(yòng)來(lái)打磨異象而非揭示出更多(duō)公司之間的(de) economic connections，那麽人(rén)們在這(zhè)條路上是否越走越窄？（這(zhè)也(yě)是爲什(shén)麽我認爲 Table 2 Panel C 才是 Bekkerman, Fich, and Khimich (2022) 的(de)點睛之筆。）

對(duì)于升級版科技關聯度在 2000 年之後十分(fēn)有效，但基于專利類别的(de)關聯度卻逐漸失效的(de)結果，我們可(kě)以從兩方面來(lái)解讀。第一個(gè)就是投資者有限注意力的(de)問題（當然，我們假設投資者已經意識到了(le)數據的(de)存在！）。第二方面，我想到的(de)是 Martin and Nagel (2022) 以及 Nagel (2021) 中提到的(de)投資者學習(xí)問題。比起專利類别，基于文本計算(suàn)相似度要更加複雜(zá)，即投資者獲取和(hé)處理(lǐ)專利數據的(de)成本更加昂貴，因此大(dà)多(duō)投資者會在爲公司估值時(shí)忽略這(zhè)方面的(de)信息。這(zhè)将導緻他(tā)們使用(yòng)過度稀疏的(de)估值模型，進而造成樣本内和(hé)樣本外收益率可(kě)預測性。

毫無疑問，另類數據打開了(le)量化(huà)投資的(de)新篇章(zhāng)，但是當我們在使用(yòng)這(zhè)類基于新數據以及新技術挖出的(de)協變量時(shí)，也(yě)應該對(duì)其背後獲得(de)超額收益的(de)原因有更加深刻的(de)思考。最後，讓我以 Nagel (2021) 中的(de)一段話(huà)結束本文（截圖來(lái)自我和(hé)王老師翻譯的(de)中文版《機器學習(xí)與資産定價》）。

參考文獻

Bekkerman, R., E. M. Fich, and N. V. Khimich (2022). The effect of innovation similarity on asset prices: Evidence from patents’ big data. Review of Asset Pricing Studies forthcoming.

Lee, C. M. C., S. T. Sun, R. Wang, and R. Zhang (2019). Technological links and predictable returns. Journal of Financial Economics 132(3), 76 – 96.

Linnainmaa, J. T. and M. R. Roberts (2018). The history of the cross-section of stock returns. Review of Financial Studies 31(7), 2606 – 2649.

Martin, I. W. R. and S. Nagel (2022). Market efficiency in the age of big data. Journal of Financial Economics 145(1), 154 – 177.

Nagel, S. (2021). Machine Learning in Asset Pricing. Princeton, NJ: Princeton University Press.

免責聲明(míng)：入市有風險，投資需謹慎。在任何情況下(xià)，本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià)，本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外，文中圖表均直接或間接來(lái)自于相應論文，僅爲介紹之用(yòng)，版權歸原作者和(hé)期刊所有。

合格投資者聲明(míng)

科技關聯度 (II)