如果能夠正确預測基本面因子

發布時(shí)間：2019-01-09 | 來(lái)源: 川總寫量化(huà)

作者：石川

摘要：使用(yòng)曆史基本面信息來(lái)預測未來(lái)的(de)基本面，并基于預測值選股；如果能夠預測準确，便可(kě)在價格修正以反映最新的(de)基本面時(shí)獲得(de)超額收益。

1 引言

基于基本面的(de)量化(huà)多(duō)因子選股一直是市場(chǎng)中研究和(hé)實踐的(de)重點，其核心邏輯是找到并配置能夠預測股票(piào)未來(lái)收益率的(de)因子。随著(zhe)機器學習(xí)技術的(de)飛(fēi)速發展，越來(lái)越多(duō)的(de)先進算(suàn)法（比如各種神經網絡）被用(yòng)于挖掘基本面因子和(hé)股票(piào)未來(lái)收益率之間的(de)非線性關系。誠然，股票(piào)的(de)價格和(hé)上市公司的(de)基本面密切相關。但是在選股時(shí)，我們很難準确判斷模型的(de)有效輸入。對(duì)于投資這(zhè)種開放性問題，大(dà)千世界的(de)任何信息都有可(kě)能會對(duì)決策産生影(yǐng)響，信息量巨大(dà)而信噪比極低。

如下(xià)圖所示，基本面信息僅僅是現實世界全部信息的(de)一小部分(fēn)，其中還(hái)包含了(le)大(dà)量的(de)無用(yòng)噪音(yīn)甚至是虛假、錯誤信息。股票(piào)未來(lái)的(de)價格反映了(le)全部信息中的(de)一小撮有用(yòng)信息；然而具體哪些信息有用(yòng)是未知的(de)，該信息和(hé)基本面信息有交集，但後者遠(yuǎn)飛(fēi)前者的(de)全部。直接使用(yòng)基本面信息來(lái)選股（即預測股票(piào)未來(lái)的(de)價格或收益率）将受到高(gāo)信噪比的(de)影(yǐng)響。

此外，雖然市場(chǎng)上存在一些異象無法被有效市場(chǎng)假說（EMH）解釋（它們源自行爲金融學中的(de)各種認知偏差），但 EMH 仍然在大(dà)部分(fēn)時(shí)間相對(duì)有效，是主宰市場(chǎng)的(de)第一範式。這(zhè)就意味著(zhe)最新的(de)基本面信息已經一定程度上反映在價格之中了(le)；再使用(yòng)它們來(lái)預測未來(lái)的(de)價格，其效果會打一定的(de)折扣。爲了(le)應對(duì)上述種種困難，學術界和(hé)業界在最近幾年提出了(le)一個(gè)新的(de)思路（如下(xià)圖所示）：使用(yòng)曆史基本面信息來(lái)預測未來(lái)的(de)基本面，并基于預測值選股；如果能夠預測準确，當最新财報被公布的(de)時(shí)候，價格發生修正以反映最新的(de)基本面信息，使得(de)那些提前布局的(de)投資者獲得(de)超額收益。

這(zhè)種做(zuò)法背後的(de)假設是能夠通(tōng)過曆史基本面信息預測出未來(lái)的(de)基本面。我對(duì)此的(de)看法是，這(zhè)絕不容易，但與使用(yòng)曆史基本面信息預測未來(lái)收益率相比，它背後的(de)邏輯更直接、純粹，而不像基本面和(hé)收益率之間還(hái)隔了(le)一層。由此可(kě)以猜想，過去和(hé)未來(lái)基本面之間的(de)信噪比比過去基本面和(hé)未來(lái)價格之間的(de)信噪比更高(gāo)。

本文的(de)目的(de)有如下(xià)兩個(gè)：

1. 海外的(de)業界基于上述思路，通(tōng)過機器學習(xí)算(suàn)法預測未來(lái)基本面信息、提出了(le)前視因子模型（Lookahead Factor Model，LFM）的(de)概念。本文對(duì)這(zhè)個(gè)方法進行簡要介紹。

2. 本文的(de)題目中用(yòng)了(le)“如果”（if），而不是“如何”（how）。我希望首先定量探討(tǎo)通(tōng)過預知未來(lái) —— 完美(měi)以及不完美(měi)的(de)情況下(xià) —— 能否帶來(lái)超額收益。隻有這(zhè)個(gè) if 的(de)前提成立了(le)，以後的(de) how 才有意義（而且這(zhè)個(gè) how 也(yě)并不一定非要通(tōng)過機器學習(xí)實現）。在這(zhè)方面，本文基于中證 500 做(zuò)一些簡單實證。

下(xià)面首先來(lái)看看 Lookahead Factor Model。

2 Lookahead Factor Model

2017 年，Alberg and Lipton (2017) 在 NIPS Time Series Workshop 上報告了(le)一篇題爲《Improving factor-based quantitative investing by forecasting company fundamentals》的(de)文章(zhāng)。本節對(duì)它做(zuò)簡要介紹。之所以不花太多(duō)的(de)篇幅，是因爲這(zhè)畢竟不是發表在 NIPS 正會上的(de)，而且它僅僅是一個(gè) poster session，文章(zhāng)本身也(yě)很短，所以其效果的(de)可(kě)靠性仍有待檢驗。但我仍希望它能給小夥伴們帶來(lái)一些啓發。Alberg and Lipton (2017) 的(de)研究動機是觀察到，如果能夠開天眼知道未來(lái)一段時(shí)間的(de)基本面信息（包括 Book-to-Market、EBIT/EV、Net Income/EV 以及 Sales/EV 這(zhè)些），并通(tōng)過它們來(lái)選股，則可(kě)以在美(měi)股上獲得(de)更高(gāo)的(de)收益，且預知未來(lái)的(de)時(shí)間越長(cháng)（用(yòng) months of clairvoyance 表示）收益越高(gāo)（下(xià)圖）。

以此爲動機，他(tā)們使用(yòng)了(le) Multilayer Perceptrons（MLPs）以及 Recurrent Neural Networks（RNNs）兩種算(suàn)法構建了(le)預測模型，使用(yòng)曆史基本面信息來(lái)預測未來(lái)的(de)基本面信息。在回測中，二位作者使用(yòng)了(le) 1970 年 1 月(yuè)至 2017 年 9 月(yuè) NYSE、NASDAQ 以及 AMEX 上的(de)股票(piào)（排除了(le)非美(měi)國的(de)公司、金融行業公司以及超小市值公司）。模型的(de)輸入特征包括 16 個(gè)基本面變量和(hé) 4 個(gè)價格時(shí)序變量（全部是動量類的(de)）。這(zhè) 16 個(gè)基本面特征包括：

1. Revenue (TTM)；

2. Cost of good sold (TTM)；

3. SG&A (TTM)；

4. EBIT (TTM)；

5. Net income (TTM)；

6. Cash and cash equivalents (當季)；

7. Receivables (當季)；

8. Inventories (當季)；

9. Other current assets (當季)；

10. PP&E (當季)；

11. Other assets (當季)；

12. Debt in current liabilities (當季)；

13. Accounts payable (當季)；

14. Taxes payable (當季)；

15. Other current liabilities (當季)；

16. Total liabilities (當季)。

在建模時(shí)，所有特征均經過必要的(de)标準化(huà)處理(lǐ)；整個(gè)回測期被分(fēn)爲樣本内（1970 - 1999）和(hé)樣本外（2000 - 2017）兩部分(fēn)；樣本内被進一步分(fēn)爲 training set 和(hé) validation set 兩部分(fēn)。Alberg and Lipton (2017) 使用(yòng)樣本内的(de) validation set 确定模型的(de)超參數 —— 包括 learning rate、model architecture、objective function weighting —— 以及 early stopping criteria。爲了(le)解決 RNN 容易過拟合的(de)問題，Alberg and Lipton (2017) 特意指出他(tā)們的(de)模型是多(duō)任務學習(xí)，同時(shí)預測 16 個(gè)基本面指标；損失函數爲預測值和(hé)實際值之間的(de)均方誤差（MSE）。不過作者也(yě)指出，在全部 16 個(gè)基本面指标中，他(tā)們最終用(yòng)來(lái)選股的(de)是 EBIT/EV，因此在損失函數中對(duì)該項賦予了(le)更高(gāo)的(de)權重。實證結果顯示，基于神經網絡的(de)複雜(zá)算(suàn)法在樣本外取得(de)了(le)比 naïve 算(suàn)法（即使用(yòng)當期數據猜下(xià)一期）更低的(de)MSE。相比 S&P500 指數本身以及傳統的(de)因子選股（基于當期 EBIT/EV 選股），兩個(gè) lookahead factor models 都取得(de)了(le)更高(gāo)的(de)年化(huà)收益率和(hé)夏普率（下(xià)表）。以上就是關于 Alberg and Lipton (2017) 這(zhè)篇文章(zhāng)的(de)簡要介紹。國内的(de)一些量化(huà)論壇基于該方法在 A 股上做(zuò)了(le)實證，感興趣的(de)朋友可(kě)以找來(lái)看看。

3 假如開天眼

本節和(hé)下(xià)一節來(lái)回答(dá)本文關注的(de) if 問題。我們以中證 500 成分(fēn)股爲選股池，回測期爲 2009 年 12 月(yuè)到 2018 年 12 月(yuè)，選擇 Earnings per Share (EPS) 作爲目标基本面因子來(lái)考察成功預測未來(lái) EPS 能否獲得(de)超額收益。首先，來(lái)看看常規做(zuò)法：每月(yuè)末按最新 EPS 數據選取該指标最高(gāo)的(de) 20 支股票(piào)等權配置，按月(yuè)調倉，不考慮任何交易成本。該選股的(de)效果如下(xià)。

接下(xià)來(lái)，假設開天眼已知未來(lái)一個(gè)月(yuè)的(de) EPS，并基于此選擇 20 支 EPS 最大(dà)的(de)股票(piào)等權配置、按月(yuè)調倉。該策略的(de)表現如下(xià)。

将這(zhè)兩個(gè)選股策略和(hé)中證 500 指數本身放在一起比較，高(gāo)下(xià)立判。無疑，EPS 本身是一個(gè)非常優秀的(de)選股因子，而如果能預知未來(lái) EPS 則可(kě)以獲得(de)更大(dà)的(de)優勢、更高(gāo)的(de)收益。

發生這(zhè)種現象背後的(de)原因是什(shén)麽呢(ne)？下(xià)圖顯示了(le)使用(yòng)當期 EPS 選股時(shí)，回測期内每月(yuè)平均換股的(de)數量。其中變化(huà)最多(duō)的(de)是五月(yuè)份。這(zhè)是因爲上市公司需要在每年 4 月(yuè) 30 日之前披露上一年的(de)年報。因此在每年四月(yuè)底，使用(yòng)最新披露的(de) EPS 選出的(de)股票(piào)往往較之前的(de)選擇有較大(dà)變化(huà)，這(zhè)便解釋了(le)五月(yuè)份的(de)持股較四月(yuè)份的(de)持股變化(huà)最大(dà)。其他(tā)月(yuè)份的(de)股票(piào)變化(huà)和(hé)季報、中報披露以及中證 500 調整成分(fēn)股有關。

類似的(de)，下(xià)圖顯示了(le)使用(yòng)下(xià)個(gè)月(yuè) EPS 選股時(shí)，每月(yuè)平均換股的(de)數量。比較這(zhè)前後兩張圖，其中最大(dà)的(de)區(qū)别就是正常情況下(xià)五月(yuè)份的(de)變化(huà)提前在四月(yuè)發生（因爲我們假設在三月(yuè)底就知道四月(yuè)最新披露的(de) EPS 中最大(dà)的(de)股票(piào)）。

對(duì)比使用(yòng)當期 EPS 選股和(hé)使用(yòng)未來(lái) EPS 選股的(de)每月(yuè)平均收益率，可(kě)以看到前面提到的(de)這(zhè)種前移帶來(lái)的(de)巨大(dà)差異。正如下(xià)圖所示，開天眼（圖中 Oracle）選股的(de)四月(yuè)份收益率較正常（圖中 Regular）選股的(de)收益率有巨大(dà)提升。此外，開天眼選股在八月(yuè)份也(yě)有巨大(dà)的(de)提升（8 月(yuè) 30 日是中報披露的(de)截止日期）。

以上結果說明(míng)，如果能準确的(de)預測并使用(yòng)未來(lái)的(de) EPS 選股，确實能夠獲得(de)更高(gāo)的(de)收益。不幸的(de)是，現實中我們不能開天眼。

4 不完美(měi)預測

第三節的(de)結果僅僅是一個(gè)美(měi)好的(de)願景。在實際中，即便能夠在一定程度上預測未來(lái)的(de) EPS（或其他(tā)基本面信息），其準确性也(yě)難以保證。在不完美(měi)的(de)預測下(xià)，這(zhè)種努力是否能夠帶來(lái)超額收益呢(ne)？這(zhè)就是本節探討(tǎo)的(de)問題。以開天眼的(de)結果作爲 EPS 選股的(de)标準答(dá)案，可(kě)以計算(suàn)出使用(yòng)曆史 EPS 選股的(de)錯誤率。從下(xià)圖不難看出，由于基本面指标變動的(de)頻(pín)率較低，在很多(duō)沒有新信息披露的(de)月(yuè)份裏，選股的(de)錯誤率也(yě)很低，但是這(zhè)并沒有什(shén)麽作用(yòng)（這(zhè)一點在構建損失函數的(de)時(shí)候值得(de)考慮）。起決定性作用(yòng)的(de)是錯誤率高(gāo)的(de)那些月(yuè)份。

上一節的(de)分(fēn)析指出，使用(yòng)未來(lái) EPS 選股的(de)優勢在于提前知道年報和(hé)中報（特别是前者）中最新的(de) EPS，因此四月(yuè)和(hé)八月(yuè)貢獻了(le)巨大(dà)的(de)超額收益。觀察上圖不難發現，使用(yòng)曆史 EPS 選股時(shí)，四月(yuè)份的(de)錯誤率也(yě)是全部十二個(gè)月(yuè)份中最高(gāo)的(de)。下(xià)表統計了(le)回測期内每年四月(yuè)和(hé)八月(yuè)使用(yòng)曆史 EPS 選股的(de)錯誤率。由此可(kě)見，預測 EPS 的(de)努力可(kě)以考慮以降低四月(yuè)和(hé)（或）八月(yuè)選股的(de)錯誤率爲目标。爲了(le)回答(dá)“不完美(měi)預測能否帶來(lái)提高(gāo)”這(zhè)個(gè)問題，首先考慮四月(yuè)爲目标并按照(zhào)以下(xià)邏輯進行模拟。

對(duì)于給定的(de)正确率 c，在回測中每年的(de)三月(yuè)底從四月(yuè) EPS 最高(gāo)的(de) 20 支股票(piào)中随機選出 20 × c 支，作爲預測模型正确的(de)部分(fēn)；從剩餘 480 支股票(piào)中随機選出 20 × (1 - c) 支作爲預測模型錯誤的(de)部分(fēn)；如此便完成一次選取（這(zhè)是一個(gè)非常粗糙的(de)處理(lǐ)方式，因爲從剩餘 480 支股票(piào)中随機選出的(de)可(kě)能是 EPS 非常差的(de)股票(piào)；實際的(de)預測模型 —— 無論是機器學習(xí)或者其他(tā)方法 —— 應該會比這(zhè)種處理(lǐ)好一些）。爲了(le)降低随機性的(de)影(yǐng)響，在每個(gè)四月(yuè)進行 100 次模拟，取它們的(de)平均值作爲正确率 c 下(xià)該預測模型的(de)選股結果，以此考察 EPS 預測正确率和(hé)選股效果的(de)關系。

下(xià)表中 Panel A 展示了(le)四月(yuè)份 EPS 預測不同正确率下(xià)選股的(de)效果。結果表明(míng)，随著(zhe)正确率的(de)提升，收益率和(hé)夏普率逐漸增加，選股效果遠(yuǎn)強于使用(yòng)當前 EPS 的(de)表現（使用(yòng)當前 EPS 的(de)年化(huà)收益率爲 6.33%；夏普率爲 0.37）。同時(shí)也(yě)看到，即便是把正确率提高(gāo)到 90%，其選股效果也(yě)顯著弱于全部使用(yòng)未來(lái) EPS 的(de)情況，這(zhè)說明(míng)僅僅改進四月(yuè)份的(de)正确率是不夠的(de)。

上表中 Panel B 展示了(le)同時(shí)提高(gāo)四月(yuè)和(hé)八月(yuè)正确率的(de)結果。随著(zhe)年報和(hé)中報披露月(yuè)份的(de)同時(shí)改進，選股效果較 Panel A 中的(de)結果進一步顯著提升。當然，我們也(yě)必須注意到，正确率的(de)邊際效應在逐漸減小。上述結果留給我們的(de)啓發有以下(xià)兩點：

1. 以月(yuè)頻(pín)進行基本面預測時(shí)，應該著(zhe)重考慮年報和(hé)季報集中披露的(de)月(yuè)份的(de)正确率；

2. 正确率對(duì)選股效果提升的(de)邊際效應逐漸減弱，當對(duì)重點月(yuè)份預測的(de)正确率提高(gāo)到一定水(shuǐ)平後，可(kě)考慮提升其他(tā)月(yuè)份預測的(de)正确性。

從實證結果來(lái)看，即便是不完美(měi)的(de)預測也(yě)是值得(de)嘗試的(de)。

5 結語

上周的(de)文章(zhāng)中提到了(le)預期差的(de)概念 —— 如果我們能找到市場(chǎng)中的(de)預期差，便可(kě)以利用(yòng)它來(lái)獲得(de)超額收益。本文提到的(de)準确預測 EPS 其實質也(yě)是提前捕捉預期差，等待價格向價值修正。想再次強調的(de)是，針對(duì)預測基本面這(zhè)個(gè)話(huà)題，本文探討(tǎo)的(de)是 if 的(de)問題，而不是 how 的(de)問題，并通(tōng)過實證給出了(le)預測中一些可(kě)能需要關注的(de)地方。在 how 的(de)問題上，希望文中介紹的(de) Alberg and Lipton (2017) 給大(dà)家提供一些思路。

在基本面的(de)預測方面，無論采用(yòng)什(shén)麽方法，預測準确才是最關鍵的(de)。這(zhè)就是爲什(shén)麽優秀分(fēn)析師的(de)盈利預測（一緻預期數據）是很值錢的(de)，因爲這(zhè)些數據确實能夠帶來(lái) α。隻不過很多(duō)時(shí)候，這(zhè)些 α 的(de)成本太高(gāo)了(le)。這(zhè)就給了(le)機器學習(xí)契機。希望在未來(lái)能夠看到學術界和(hé)業界在這(zhè)方面的(de)更多(duō)突破，将先進機器學習(xí)算(suàn)法運用(yòng)到上市公司财務數據的(de)預測中，爲低成本的(de)獲取 α 提供新的(de)可(kě)能性。

參考文獻

Alberg, J. and Z. C. Lipton (2017). Improving factor-based quantitative investing by forecasting company fundamentals. NIPS Time Series Workshop 2017.

免責聲明(míng)：入市有風險，投資需謹慎。在任何情況下(xià)，本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià)，本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外，文中圖表均直接或間接來(lái)自于相應論文，僅爲介紹之用(yòng)，版權歸原作者和(hé)期刊所有。

合格投資者聲明(míng)

如果能夠正确預測基本面因子