另類數據的(de)前景和(hé)陷阱

發布時(shí)間：2020-03-02 | 來(lái)源: 川總寫量化(huà)

作者：石川

摘要：本文探討(tǎo)對(duì)另類數據的(de)五點思考。科學的(de)使用(yòng) + 正确的(de)預期，另類數據或大(dà)有可(kě)爲。

0 特斯拉工廠上空的(de)“天眼”

美(měi)國時(shí)間 2018 年 10 月(yuè) 25 日，困境中的(de)特斯拉（Tesla）股票(piào)錄得(de) 9.14% 的(de)大(dà)漲，隻因爲在前一個(gè)交易日盤後發布的(de) 2018 Q3 财報大(dà)超華爾街(jiē)預期。财報顯示，爆款 Model 3 的(de)産量在過去一個(gè)季度較之前幾乎翻番，這(zhè)無疑給了(le)投資人(rén)注入了(le)一劑強心針，也(yě)引得(de)市場(chǎng)一片狂歡。

面對(duì) Model 3 産量的(de)大(dà)增以及 9+% 大(dà)漲反映出的(de)市場(chǎng)信心，最高(gāo)興的(de)人(rén)當屬 Tesla 的(de)掌門人(rén) Elon Musk。然而，除了(le) Musk 之外，同樣高(gāo)興的(de)另一群人(rén)大(dà)概要數另類數據公司 Thasos 以及它的(de)很多(duō)對(duì)沖基金客戶們。因爲在 Tesla 發布 Q3 财報之前，這(zhè)群人(rén)恐怕早就憑借著(zhe)信息優勢預判到了(le)這(zhè)一點，并提前在二級市場(chǎng)布局了(le)。

Thasos 是怎麽做(zuò)到的(de)？

他(tā)們在一張在線地圖上環繞 Tesla 位于 Fremont，California 的(de)占地 370 英畝的(de)工廠，創建了(le)一個(gè)數字圍欄，以隔離從 Tesla 工廠範圍内發出的(de)智能手機位置信号。Thasos 租賃了(le)數不勝數的(de)智能手機 APP 收集到的(de)數萬億個(gè)地理(lǐ)坐(zuò)标的(de)數據庫，并通(tōng)過電腦(nǎo)程序密切監測從 Tesla 工廠中發出的(de)手機信号。使用(yòng)手機信号量進行估計，他(tā)們發現從 2018 年 6 月(yuè)到 10 月(yuè)，Tesla 工廠夜間輪班時(shí)間增加了(le) 30%。

上圖中左側，橫坐(zuò)标 J、F、M 等爲月(yuè)份的(de)英文首字母縮寫。深藍色曲線爲通(tōng)過手機信号估計出來(lái)的(de)夜班（weekday late）工作時(shí)間。從圖中清晰可(kě)見，在 6 月(yuè)到 10 月(yuè)之間，夜班工作時(shí)間較 Q2 有了(le)大(dà)幅增長(cháng)，意味著(zhe)産能的(de)提高(gāo)。Thasos 将這(zhè)個(gè)數據分(fēn)享給了(le)它的(de)一些對(duì)沖基金客戶。毫無疑問，這(zhè)一數據發揮了(le)巨大(dà)的(de)作用(yòng)。

這(zhè)是将另類數據應用(yòng)于二級市場(chǎng)投資的(de)一個(gè)經典案例。

近年來(lái)，另類數據逐漸走進了(le)二級市場(chǎng)投資的(de)視線。随著(zhe)使用(yòng)常規數據 —— 量價、财務等 —— 構建交易信号、進行交易變得(de)越來(lái)越擁擠，所獲得(de)的(de)超額收益越來(lái)越被稀釋，人(rén)們把目光(guāng)投入到了(le)另類數據上，希望通(tōng)過獨門數據源獲取别人(rén)不知道的(de) α。另類數據也(yě)在借著(zhe)這(zhè)個(gè)風口獲得(de)了(le)巨大(dà)的(de)發展。來(lái)自 AlternativeData.org 的(de)數據顯示，在最近幾年，另類數據 providers 的(de)數量也(yě)出現了(le)激增。

其實，另類數據并非什(shén)麽新鮮概念。在幾十年前，當我們隻有量價數據計算(suàn)均值、布林(lín)帶的(de)時(shí)候，财務報表數據就是另類數據；當财務數據被廣泛使用(yòng)後，分(fēn)析師一緻預期就是另類數據；當分(fēn)析師一緻預期家喻戶曉之後，網絡輿情數據就成了(le)另類數據；當人(rén)們對(duì)網絡輿情不再陌生之後，非結構化(huà)的(de)文本數據就變成了(le)另類數據……

當人(rén)們接觸到新的(de)數據源的(de)時(shí)候，一般的(de)反應都是“兩眼發光(guāng)”。誠然，在市場(chǎng)變得(de)更加有效的(de)今天，新的(de)數據源無疑是尚未被過度使用(yòng)的(de)“淨土”、充滿潛在的(de)機會。但是，另類數據真的(de)像人(rén)們想象的(de)那樣前景一片光(guāng)明(míng)嗎？是否任意一個(gè)新的(de)數據源都能拿過來(lái)加工出一個(gè)靠譜的(de) α 因子？另類數據能否成爲二級市場(chǎng)的(de) silver bullet？面對(duì)這(zhè)些問題，海外業界也(yě)不乏争議(yì)之聲，有人(rén)支持也(yě)有人(rén)反對(duì)。

本文以“另類數據的(de)前景和(hé)陷阱”爲題，闡述對(duì)另類數據的(de)五點思考（下(xià)文第 1 到 5 節），僅是希望抛磚引玉。由于知識和(hé)資曆有限，可(kě)能有些觀點不盡完善，也(yě)歡迎各位小夥伴指正。

1 技術和(hé)數據需匹配

關于另類數據的(de)第一個(gè)思考是新的(de)數據類型需要相應的(de)分(fēn)析技術。當我們僅有量、價數據的(de)時(shí)候，傳統的(de)技術分(fēn)析，如均線、布林(lín)帶就能發揮很大(dà)的(de)作用(yòng)。然而，這(zhè)些技術分(fēn)析對(duì)結構化(huà)的(de)會計報表數據卻難有作爲。爲此，相應的(de)分(fēn)析手段也(yě)應運而生，比如多(duō)因子模型等。而如今，如果想要分(fēn)析非結構化(huà)文本數據以及更 general 的(de)多(duō)媒體數據，則更是需要相應的(de)技術，如自然語言處理(lǐ)和(hé)廣義人(rén)工智能。顯然，這(zhè)對(duì)管理(lǐ)人(rén)和(hé)投資者都提出了(le)越來(lái)越高(gāo)的(de)要求。

随著(zhe)另類數據量的(de)爆發，另一個(gè)需要面對(duì)的(de)問題則是維數災難。以預測股票(piào)收益率爲例，另類數據代表著(zhe)不同的(de)因變量。由于股票(piào)的(de)樣本數據就那麽多(duō)，随著(zhe)自變量的(de)增加，則股票(piào)樣本數據在這(zhè)些變量構成的(de)空間内将會越來(lái)越稀疏。參數的(de)激增使得(de)預測模型存在更高(gāo)的(de)過拟合風險，且預測的(de) bias 和(hé) variance 都會變大(dà)。此外，使用(yòng)不同另類數據構建因子也(yě)會出現之前公衆号強調多(duō)次的(de)多(duō)重檢驗（multiple testing）的(de)問題。當使用(yòng)大(dà)量模型分(fēn)析同樣的(de)數據時(shí)，總會出現僅僅因爲運氣就十分(fēn)顯著的(de)因子。這(zhè)要求人(rén)們在統計手段上盡可(kě)能排除這(zhè)種 lucky factor，而在金融學業務上去真正理(lǐ)解另類數據和(hé)未來(lái)預期收益率之間的(de)邏輯。這(zhè)也(yě)引出了(le)第二點思考，使用(yòng)另類數據需要很強的(de) domain knowledge。

2 Domain Knowledge

全新的(de)數據是一把“雙刃劍”。一方面，因爲還(hái)沒有人(rén)用(yòng)過，因此它不存在“擁擠”的(de)問題；而另一方面，如果使用(yòng)者不具備該數據所要求的(de) domain knowledge，那很可(kě)能不知道從何下(xià)手。在我們的(de)想象中，另類數據也(yě)許是這(zhè)樣的(de)：有令人(rén)興奮的(de)故事、而且是已經被 vendors 處理(lǐ)好的(de)結構化(huà)數據，我們能直接拿來(lái)當成因子對(duì)資産排排序，就能一頓操作猛如虎。然而，在實際中，另類數據更像是在一個(gè)沒人(rén)去過的(de)地方發現了(le)一座山。然而，這(zhè)座山裏有沒有礦、從哪裏開始挖、到底能挖出什(shén)麽，更多(duō)的(de)要看使用(yòng)者自己的(de)本事。

There are plenty of inputs. But how do investors go about filtering the signal from the noise?

在海外業界，實力充沛的(de)大(dà)型資産管理(lǐ)公司由于具備足夠的(de)人(rén)才儲備，通(tōng)常自己進行數據分(fēn)析。另一方面，另類數據 vendors 也(yě)會通(tōng)過推出一些聽(tīng)上去十分(fēn)有希望的(de) scenarios 從而推銷數據。除了(le)買方、賣方外，市場(chǎng)上也(yě)湧現出了(le)第三方研究機構，投資者會委托他(tā)們進行另類數據的(de)研究。對(duì)于另類數據的(de)使用(yòng)者來(lái)說，使用(yòng) vendors 或者第三方提供的(de)加工後的(de)數據無疑是最方便的(de)。但這(zhè)種做(zuò)法存在的(de)問題是，這(zhè)些 use cases 會被賣給很多(duō)不同的(de)使用(yòng)者。這(zhè)會增加另類數據的(de)擁擠度，降低其在未來(lái)獲取收益的(de)能力。因此，對(duì)于使用(yòng)者來(lái)說，掌握 domain knowledge —— 包括另類數據如何産生、背後的(de)業務流程是什(shén)麽、金融學含義有哪些等 —— 無疑是最重要的(de)，這(zhè)可(kě)以掌握研究的(de)主動權，并更有可(kě)能挖出獨門的(de) α。

What we're generally looking for is something a little bit more raw, a bit more unprocessed, where we can really understand what the data is. We can dive into it, we can do our analysis, we can do cleaning, we can apply it and back-test it with the goal of figuring out whether the data will provide a useful signal.

在這(zhè)方面，公衆号之前介紹的(de) Lee et al. (2019) 一文是一個(gè)很好的(de)例子（見《科技關聯度》）。該文針對(duì)美(měi)股，使用(yòng)專利數據創造性的(de)構建了(le)科技關聯度指标，獲得(de)了(le)其他(tā)常見因子無法解釋的(de)超額收益。這(zhè)個(gè) idea 本身是需要對(duì)專利數據背後代表的(de)業務邏輯，以及公司之間的(de)關聯有深刻的(de)認識的(de)。如果沒有這(zhè)種 domain knowledge，隻是把專利數據拿來(lái)簡單的(de)統計哪個(gè)公司專利多(duō)、哪個(gè)公司專利少，恐怕并不能獲得(de)可(kě)觀的(de) α。

3 數據是否無偏

關于另類數據的(de)第三個(gè)思考是，數據的(de)生成（采集）過程是否 unbiased，能否很好的(de)代表總體。爲了(le)說明(míng)這(zhè)一點，不妨來(lái)看一個(gè)例子。Green et al. (2019) 使用(yòng) Glassdoor 數據研究了(le)員(yuán)工評價與股票(piào)收益率之間的(de)關系（[因子動物(wù)園] 的(de)文章(zhāng)《烏合之衆 or 群衆的(de)智慧：員(yuán)工評價與股票(piào)收益》對(duì)該文進行了(le)詳細介紹）。Glassdoor 提供了(le)員(yuán)工對(duì)公司的(de)綜合評價和(hé)五個(gè)标準化(huà)評價指标，包括職業機會，薪酬福利，工作/生活平衡度，高(gāo)層管理(lǐ)，企業文化(huà)與價值，所有評價皆爲 1 至 5 星。

爲了(le)研究員(yuán)工評價和(hé)股票(piào)收益率的(de)關系，Green et al. (2019) 依據員(yuán)工評價變化(huà)高(gāo)低将股票(piào)分(fēn)爲三組（top 20%，middle 60%，bottom 20%），并用(yòng) high – low 構建了(le)因子。理(lǐ)論上，員(yuán)工評價變高(gāo)，意味著(zhe)經濟環境及公司前景很可(kě)能在變好，在其他(tā)條件相同的(de)情況下(xià)，公司應有更好的(de)表現，因此預期收益率更高(gāo)。實證結果支持了(le)他(tā)們的(de)猜想。

結果顯示，無論是等權還(hái)是市值加權，該因子确實能夠獲得(de)顯著的(de)超額收益。此外，高(gāo)、低評價變化(huà)組合的(de)主要公司特征（如 beta、規模和(hé) BM）基本一緻，動量也(yě)非常接近，而員(yuán)工評價變化(huà)平均相差超過 1 星，意味著(zhe)其他(tā)常見因子無法解釋公司評價它。這(zhè)一點也(yě)進一步被 Fama and MacBeth (1973) regression 結果所驗證：無論是單變量回歸，還(hái)是控制了(le)不同的(de)公司特征後，員(yuán)工評價變化(huà)都有顯著的(de)風險溢價。毫無疑問，Green et al. (2019) 是一篇有趣的(de)發現。不過我們仍然不禁要對(duì) Glassdoor 的(de)數據進行靈魂發問：員(yuán)工評價數據是否無偏呢(ne)？是否是可(kě)信的(de)？Glassdoor 的(de)數據存在以下(xià)一些潛在問題：

1. 沒有員(yuán)工認證系統：這(zhè)意味著(zhe)任何人(rén)，可(kě)以在任何時(shí)間，對(duì)任何公司進行評價，而沒有機制來(lái)保證這(zhè)個(gè)人(rén)确實是或曾是該公司的(de)員(yuán)工。

2. 人(rén)們更容易在對(duì)雇主不滿時(shí)更容易發表（負面）評價。

3. 人(rén)們往往過度誇大(dà)感受：Glassdoor 上有很多(duō) 1 星和(hé) 5 星評價。

4. 評分(fēn)體系本身并無科學依據。Glassdoor 并沒有給出明(míng)确的(de)說明(míng)每個(gè)星級到底代表什(shén)麽。評分(fēn)者可(kě)以任意的(de)根據主觀感受來(lái)選擇 1 星到 5 星。工資不錯？5 星！餐廳免費？5 星！免費健身房(fáng)？5 星！…… 5 星可(kě)以代表任何事，但顯然不是所有的(de) 5 星和(hé)股票(piào)收益率的(de)關系都是一緻的(de)。但我們不知道每個(gè) 5 星背後到底意味著(zhe)什(shén)麽。

5. 有些雇主有獎勵機制、鼓勵員(yuán)工提交 5 星評價。曾經有一個(gè)公司的(de)評分(fēn)大(dà)概 1.5 分(fēn)左右，後來(lái)管理(lǐ)層發話(huà)說，如果員(yuán)工僅發布經管理(lǐ)層審批後通(tōng)過的(de)留言，那麽員(yuán)工将得(de)到 250 美(měi)元的(de)獎勵。這(zhè)個(gè)公司後來(lái)的(de)評分(fēn)上升至 4.2。

這(zhè)些問題說明(míng)，Glassdoor 的(de)數據的(de)無偏性令人(rén)擔憂。除此之外，我對(duì)其的(de)另一個(gè)猜想是涉及到的(de)公司的(de)行業分(fēn)布是否也(yě)會不均勻？比如，互聯網或者科技公司的(de)員(yuán)工更容易也(yě)更願意參與網上評價？而傳統制造業企業的(de)員(yuán)工則沒那麽熱(rè)衷？如果行業分(fēn)布不均，那麽 Green et al. (2019) 的(de)研究結果将會由于沒有控制行業影(yǐng)響而大(dà)打折扣。

4 曆史數據太短

對(duì)于大(dà)多(duō)數另類數據來(lái)說，一個(gè)不得(de)不面對(duì)的(de)問題是數據長(cháng)度往往很短。據我（有限）的(de)調研發現，通(tōng)常來(lái)說另類數據集的(de)曆史數據長(cháng)度是 5 年以内（2 到 3 年很常見）；5 年以上就是很長(cháng)的(de)了(le)。曆史數據太短會加劇多(duō)重檢驗的(de)危害，增加過拟合問題。下(xià)圖結果來(lái)自 Bailey and Lopez de Prado (2012) 的(de)研究。假設數據無法預測收益率，該研究發現，如果數據的(de)長(cháng)度僅有 2 年，則僅需要通(tōng)過 7 個(gè)檢驗就能找到夏普率爲 1 的(de)策略；而如果數據的(de)長(cháng)度提高(gāo)到 5 年，達到同樣的(de)效果則需要 45 個(gè)檢驗 —— 其實也(yě)非常很容易。這(zhè)個(gè)例子說明(míng)，數據量越少，越容易出現過拟合。在這(zhè)個(gè)時(shí)候，如果沒有對(duì)另類數據背後邏輯的(de)認知，則難以辨别出找到的(de)信号是否真的(de)有效。

5 是否有增量貢獻

對(duì)于另類數據的(de)最後一個(gè)思考是檢驗其對(duì)預測收益率是否有增量貢獻。我曾經給期刊審稿了(le)一篇文章(zhāng)，它講的(de)是使用(yòng)網絡論壇上的(de)股票(piào)情緒構建策略獲得(de)超額收益。該文以論壇大(dà) V 對(duì)股票(piào)的(de)評價爲輸入，提出了(le)一個(gè)專家系統進行選股。仔細讀下(xià)來(lái)，該文可(kě)謂是“千瘡百孔”，然而它最大(dà)的(de)問題是沒有進行業績歸因。該文構建的(de)策略确實跑赢了(le) benchmark，但是它沒有用(yòng)常見的(de)多(duō)因子模型來(lái)進行分(fēn)析、檢驗其是否在控制了(le)其他(tā)因子後仍然能夠獲得(de)超額收益，無法判斷該數據對(duì)預測收益率是否有增量貢獻。

同樣作爲研究網絡輿情數據的(de)研究，Liew and Budavari (2017) 這(zhè)篇文章(zhāng)使用(yòng) tweet sentiments 數據，在 Fama and French (2015) 五因子基礎上加入了(le)第六個(gè)因子，指出該因子能在五因子之外解釋個(gè)股收益率的(de)時(shí)序波動。不過有意思的(de)是，該文并沒有研究該因子在解釋個(gè)股預期收益率截面差異上的(de)作用(yòng)，所以 read/use with care……

不管怎樣，它比我審稿的(de)那篇還(hái)是靠譜多(duō)了(le)。（不過插句題外話(huà)，JPM 這(zhè)幾年的(de)水(shuǐ)平似乎有所下(xià)降。）

Alternative data aren't necessarily better when it comes to providing performance-enhancing insight, they are different.

上面這(zhè)句話(huà)很好的(de)總結了(le)業界對(duì)于另類數據的(de)合理(lǐ)期望。另類數據，顧名思義，它首先需要另類。如果繞了(le)一大(dà)圈後發現，它背後的(de)收益率驅動和(hé)其他(tā)收益源相同，那麽它就沒有什(shén)麽額外的(de)價值。在投資中，多(duō)樣化(huà)被認爲是唯一的(de)“free lunch”。同樣的(de)道理(lǐ)對(duì)數據也(yě)成立。隻有當另類數據和(hé)現有數據盡可(kě)能不相關，它才有可(kě)能捕捉到其他(tā)收益源之外的(de)收益，提高(gāo)投資組合的(de)風險收益特征。

6 結語

以上就是對(duì)另類數據的(de)五點思考。在本文最後，簡單總結下(xià)另類數據的(de)四大(dà)主流應用(yòng)場(chǎng)景（其實前文的(de)舉例中有些已經涉及到了(le)），包括網絡抓取、情緒、衛星數據以及消費數據。

金融行業的(de)數據研究機構 Greenwich Associates 的(de)研究表明(míng)，網絡抓取是目前使用(yòng)最廣泛的(de)另類數據。它從目标網站收集數據，以獲取有關品牌、公司和(hé)企業活動的(de)信息。在這(zhè)其中，最熱(rè)門的(de)數據包括 job listing 和(hé) company review，它們能夠爲公司的(de)增長(cháng)前景提供一定的(de)線索（但小心 Glassdoor 的(de)問題）。此外，有關産品排名和(hé)促銷活動的(de)數據也(yě)極具價值，人(rén)們可(kě)以從中找尋公司表現的(de)蛛絲馬迹。情緒數據則代表了(le)另一大(dà)類的(de)常見的(de)另類數據。像社交媒體、新聞流、公司公告這(zhè)些自不必說了(le)，有很多(duō)相關的(de)研究。除此之外，海外也(yě)開始對(duì)上市公司 earnings call 的(de) transcript 進行文本分(fēn)析、捕捉高(gāo)管的(de)用(yòng)詞和(hé)語言，以此推斷公司的(de)前景。不過，在這(zhè)方面，英文相較于中文有較大(dà)的(de)優勢，可(kě)操作性高(gāo)不少。衛星圖像聽(tīng)上去很玄幻，但你幾乎能在所有 leading 另類數據提供商的(de)樣例中找到它的(de)身影(yǐng)。比如，衛星圖像數據會被用(yòng)來(lái)跟蹤船隻，監測農作物(wù)，并探測港口和(hé)油田的(de)活動，推斷大(dà)宗商品的(de)庫存等。信用(yòng)卡和(hé)借記卡的(de)交易數據中也(yě)存在巨大(dà)的(de)價值。在海外，一些另類數據商網羅了(le)很多(duō)消費者，他(tā)們同意分(fēn)享其消費數據。這(zhè)類數據可(kě)以被用(yòng)來(lái)追蹤零售行業的(de)收入，通(tōng)過更細的(de)粒度以及更高(gāo)的(de)頻(pín)率來(lái)預測相關公司的(de)基本面。不過，這(zhè)類數據的(de)可(kě)得(de)性比較低。AlternativeData.org 的(de)調研指出，這(zhè)類數據往往非常昂貴。

讀到這(zhè)裏有小夥伴也(yě)許會問“你這(zhè)題目文章(zhāng)叫前景和(hé)陷阱，這(zhè)前面 blabla 說了(le)五點都是陷阱啊，前景在哪裏？”其實，把坑都填上、科學的(de)使用(yòng)再加之正确的(de)預期，那麽這(zhè)些“陷阱”就将變成“前景”。據來(lái)自 AlternativeData.org 的(de)統計數據顯示，海外買方在購(gòu)買另類數據上的(de)支出在最近幾年逐年增長(cháng)。

QQ截圖20200221114111.png

我們有理(lǐ)由對(duì)另類數據的(de)未來(lái)充滿希望。

參考文獻

Bailey, D. H. and M. Lopez de Prado (2012). The Sharpe ratio efficient frontier. Journal of Risk 15(2), 3 – 44.

Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium: empirical tests. Journal of Political Economy 81(3), 607 – 636.

Fama, E. F. and K. R. French (2015). A five-factor asset pricing model. Journal of Financial Economics 116(1), 1 – 22.

Green, T. C., R. Huang, Q. Wen, and D. Zhou (2019). Crowdsourced employer reviews and stock returns. Journal of Financial Economics 134(1), 236 – 251.

Lee, C. M. C., S. Teng, R. Wang, and R. Zhang (2019). Technological links and predictable returns. Journal of Financial Economics 132(3), 76 – 96.

Liew, J. and T. Budavari (2017). The "six" factor – A social media factor derived directly from tweet sentiments. The Journal of Portfolio Management 43(3), 102 – 111.

免責聲明(míng)：入市有風險，投資需謹慎。在任何情況下(xià)，本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià)，本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外，文中圖表均直接或間接來(lái)自于相應論文，僅爲介紹之用(yòng)，版權歸原作者和(hé)期刊所有。

合格投資者聲明(míng)

另類數據的(de)前景和(hé)陷阱