出色不如走運 (III)?

發布時(shí)間:2019-02-01  |   來(lái)源: 川總寫量化(huà)

作者:石川

摘要:本文使用(yòng)随機因子的(de)實證結果定量說明(míng)了(le)僅靠運氣就能夠達到的(de)選股效果,幫助判斷選股因子是否真正有效。


1 引言


使用(yòng)因子選股的(de)邏輯是因子 —— 無論是來(lái)自基本面、量價還(hái)是宏觀經濟等 —— 都對(duì)股票(piào)未來(lái)的(de)收益率有預測性。在定量評價一個(gè)因子是否有效時(shí),主要的(de)考察方式之一是計算(suàn)該因子的(de)收益率是否顯著不爲零(原假設)。假設因子的(de)預期收益率和(hé)該預期收益率的(de) standard error 分(fēn)别爲 E[f] 和(hé) s.e.(E[f]),則假設檢驗的(de) t-statistic 爲:



在進行單因子檢驗時(shí),一般要求該因子的(de) t-statistic 大(dà)于 2,從而以 5% 的(de)顯著性水(shuǐ)平拒絕原假設,并認爲該因子确實有預測股票(piào)收益率的(de)能力。然而,如果同時(shí)考慮衆多(duō)因子(多(duō)重假設檢驗,multiple hypothesis testing)并從裏面挑出來(lái)最好的(de),由于 data mining 的(de)問題(即運氣),即便最好因子的(de) t-statistic 大(dà)于 2,也(yě)不能認爲它是有效的(de)。之前的(de)兩篇文章(zhāng)《出色不如走運?》以及《出色不如走運(II)?》對(duì)這(zhè)個(gè)問題進行了(le)探討(tǎo)。今天這(zhè)篇是《出色不如走運(III)?》。


假設同時(shí)考察 n 個(gè)因子、這(zhè)些因子對(duì)于股票(piào)收益率的(de)預測能力滿足 Uniform distribution。如果從這(zhè) n 個(gè)因子中挑出效果最好的(de),這(zhè)個(gè)“最好的(de)”因子的(de) t-statistic 和(hé) p-value 有哪些性質呢(ne)?我們想要回答(dá)的(de)問題是:在多(duō)重檢驗的(de) n 選 1 問題中,對(duì)于給定的(de)顯著性水(shuǐ)平 p(比如 5%),單一因子的(de) p-value 或 t-statistic 應滿足什(shén)麽條件才能拒絕原假設。根據 order statistic 的(de)概率知識可(kě)知,這(zhè) n 個(gè)因子中第 i 好的(de)滿足 Beta distribution:



從 n 個(gè)裏面挑出最好的(de)相當于令 i = n。根據 Beta distribution 的(de)定義和(hé)簡單計算(suàn)有:



令 x = (1 – p)^{1/n} 并利用(yòng) prob(U < x) = 1 – prob(U ≥ x) 可(kě)知:



在因子分(fēn)析中,通(tōng)常關注的(de)是因子收益率是否顯著不爲零 —— 可(kě)正可(kě)負 —— 因此一般使用(yòng)雙邊檢驗。對(duì)于給定的(de) p-value(單邊 p/2),由上式可(kě)知(将 p 換成 p/2),這(zhè) n 個(gè)因子中最好的(de)那個(gè)的(de) t-statistic 的(de)絕對(duì)值需不小于以下(xià)阈值才能拒絕原假設:



當 n 很大(dà)時(shí),從上式可(kě)進一步推導出單一因子的(de) p-value 需要小于 p/n 才能在 n 選 1 的(de) multiple hypothesis testing 下(xià)拒絕原假設。舉例來(lái)說,我們考察 10 個(gè)因子并希望以 5% 的(de)顯著性水(shuǐ)平找到真正有效的(de)因子,則這(zhè)些因子各自的(de) p-value 隻有小于 5%/10 = 0.5% 才能拒絕原假設。這(zhè)正是大(dà)名鼎鼎的(de) Bonferroni correction(邦費羅尼校正)。實際因子選股面臨更複雜(zá)的(de)問題:如何從 n 個(gè)因子中選出最好的(de) k 個(gè),而非 1 個(gè);如何配置選出來(lái)的(de)這(zhè) k 個(gè)因子 —— 等權配置還(hái)是按照(zhào)它們樣本内的(de)表現好壞配置。如果不妥善解決 multiple hypothesis testing 的(de)問題,上述這(zhè)些做(zuò)法會導緻選擇偏差(selection bias)以及過拟合偏差(overfitting bias)


2 選擇偏差和(hé)過拟合偏差


在選擇因子時(shí),通(tōng)常的(de)做(zuò)法是在回測中使用(yòng)因子定期構建投資組合,然後分(fēn)析因子預期收益率的(de) t-statistic。如果該 t 值小于零(且顯著爲負)則把該因子反過來(lái)使用(yòng)。假設同時(shí)考察 n 個(gè)因子,并根據因子 t-statistic 絕對(duì)值的(de)大(dà)小采用(yòng)下(xià)列做(zuò)法之一:


1. 按照(zhào)樣本内 n 個(gè)因子 t-statistics 的(de)正負同時(shí)使用(yòng)全部因子,按照(zhào)等權或者樣本内因子效果賦權來(lái)選股(n 選 n 問題) —— 這(zhè)種做(zuò)法引入 overfitting bias;


2. 從這(zhè) n 個(gè)因子中挑出樣本内 t-statistic 絕對(duì)值最大(dà)的(de) 1 個(gè)(n 選 1 問題),使用(yòng)該因子選股 —— 這(zhè)種做(zuò)法引入 selection bias;


3. 從這(zhè) n 個(gè)因子中挑出樣本内 t-statistic 絕對(duì)值最大(dà)的(de) k 個(gè)(n 選 k 問題),并按等權或樣本内效果賦權選股 —— 這(zhè)種做(zuò)法同時(shí)引入 selection bias 和(hé) overfitting bias。


Novy-Marx (2015) 研究了(le)多(duō)因子選股回測中的(de) selection bias 和(hé) overfitting bias 問題。本文第一節中的(de)數學推導正是來(lái)自 Novy-Marx (2015),而它僅僅是 n 選 1 的(de)一種簡化(huà)情況。在投資實務中,更常見的(de)是上述第二種 n 選 k 的(de)問題,它面臨“因子怎麽選”和(hé)“因子如何配”這(zhè)兩個(gè)嚴峻的(de)問題,一不小心就會引入大(dà)量的(de)噪聲。


毫無疑問,multiple hypothesis testing 下(xià)的(de)數據挖掘是因子選股的(de)大(dà)敵。通(tōng)過 data mining,僅僅依靠運氣,挑出來(lái)的(de)因子 —— 哪怕再沒有業務含義 —— 也(yě)會在樣本内獲得(de)顯著不爲零的(de)選股收益率,但它隻是過拟合而已。針對(duì) multiple hypothesis testing 中的(de) data mining,Novy-Marx (2015) 從理(lǐ)論和(hé)實證經驗兩個(gè)角度分(fēn)析了(le)上述 n 選 n、n 選 1、n 選 k 三個(gè)問題中,多(duō)因子策略的(de) t-statistic 的(de)分(fēn)布問題。該文使用(yòng)純随機産生的(de)因子 —— 理(lǐ)論上沒有任何預測性 —— 在美(měi)股上選股、以美(měi)股的(de)真實收益率計算(suàn)這(zhè)些随機因子的(de)因子收益率,從而定量分(fēn)析上述三個(gè)問題中多(duō)因子選股策略的(de) t-statistic 的(de)阈值。這(zhè)些 t-statistic 的(de)阈值遠(yuǎn)超單因子檢驗中的(de) 2.0,而如此之高(gāo)的(de)阈值更是僅僅來(lái)自于運氣和(hé) data mining。在實際選股中,使用(yòng)多(duō)因子構建的(de)策略的(de) t-statistic 唯有超過這(zhè)些阈值才意味著(zhe)它們真的(de)對(duì)收益率有統計上非顯著爲零的(de)預測性。


本文下(xià)一節借鑒 Novy-Marx (2015) 的(de)思路産生随機因子,使用(yòng)中證 500 指數的(de)成分(fēn)股進行實證分(fēn)析。


3 實證研究


本節針對(duì)中證 500 進行實證。實證中的(de)回測期從 2010 年 1 月(yuè)到 2019 年 1 月(yuè),考察 n 個(gè)随機因子的(de)選股能力。具體的(de):


1. 對(duì)于每一個(gè)因子,在每月(yuè)末,随機生成 500 支成分(fēn)股在該因子上的(de)取值并從高(gāo)到低排列,選擇取值最高(gāo)的(de) 10% 做(zuò)多(duō)、取值最低的(de) 10% 做(zuò)空,以該多(duō)空組合的(de)收益率作爲該期因子的(de)收益率;


2. 計算(suàn)回測期内每個(gè)因子的(de) t-statistic,如果某個(gè)因子的(de) t-statistic 爲負,則把該随機因子反過來(lái)使用(yòng);


3. 按照(zhào)每個(gè)随機因子 t-statistic 絕對(duì)值的(de)大(dà)小,挑選絕對(duì)值最大(dà)的(de) k (≤ n) 個(gè)因子,并按照(zhào)等權或者正比于它們 t-statistics 的(de)絕對(duì)值大(dà)小配置因子;


4. 以最終多(duō)個(gè)因子的(de)配置結果作爲最終的(de)選股結果,計算(suàn)該策略在整個(gè)回測期内的(de) t-statistic;


5. 上述 1 – 4 步完成了(le) n 選 k(當 k = 1 和(hé) n 時(shí),問題分(fēn)别變爲 n 選 1 和(hé) n 選 n)的(de)一次實驗。爲了(le)得(de)到 n 選 k 問題中 t-statistic 的(de)經驗分(fēn)布并計算(suàn) 5% 顯著性水(shuǐ)平下(xià)的(de) t-statistic 的(de)阈值,對(duì)于每一組 n 和(hé) k,将上述 4 步進行 5000 次仿真,從而計算(suàn) t-statistic 的(de)阈值。


舉個(gè)例子。下(xià)圖是當 n = 20,k = 3(即從 20 個(gè)随機因子中選出樣本内 t-statistic 絕對(duì)值最大(dà)的(de) 3 個(gè),并按 t-statistic 絕對(duì)值大(dà)小配置)時(shí),5000 次仿真得(de)到的(de)該策略的(de) t-statistic 的(de)經驗分(fēn)布,其均值爲 3.2,其 5% 顯著性水(shuǐ)平下(xià)對(duì)應的(de) t-statistic(即該分(fēn)布中 95% 分(fēn)位數)高(gāo)達 4.16。


f6.png


該結果表明(míng),如果我們從 20 個(gè)源于業務邏輯(或者很多(duō)人(rén)樂(yuè)此不疲的(de) data mining)的(de)因子中選擇 3 個(gè)最好的(de)來(lái)選股時(shí),該策略的(de) t-statistic 要超過 4.16 才能認爲這(zhè) 3 個(gè)因子的(de)選股效果不僅僅是運氣。接下(xià)來(lái)看看不同 n 和(hé) k 的(de)取值下(xià),5% 顯著性水(shuǐ)平對(duì)應的(de) t-statistic 的(de)阈值的(de)情況。下(xià)圖比較了(le)不同 n 取值下(xià),n 選 1 和(hé) n 選 n 兩種極端情況 —— n 選 1 代表僅有 selection bias;n 選 n 代表僅有 overfitting bias。下(xià)圖傳遞出以下(xià)信息:


1. 随著(zhe)考察的(de)随機因子個(gè)數(n)的(de)增加,策略 t-statistic 的(de)阈值逐漸遞增;


2. 選 n 個(gè)因子比選 1 個(gè)因子有更高(gāo)的(de)阈值;按樣本内表現配置比等權配置有更高(gāo)的(de)阈值;它們說明(míng) overfitting bias 比 selection bias 更容易在樣本内産生過拟合。


f7.png


再來(lái)看看更一般的(de) n 選 k 的(de)情況。下(xià)圖顯示了(le) n = 10、20、40 和(hé) 100 時(shí),不同 k 取值下(xià)的(de)選股策略的(de) t-statistic 阈值。在一般的(de)投資實務中,嘗試 100 甚至幾百個(gè)因子并選擇其中某些好的(de)是十分(fēn)常見的(de)。從該實證結果中可(kě)以觀察到:


1. 随著(zhe) n 和(hé) k 的(de)增加,對(duì)于按照(zhào)随機因子 t-statistic 絕對(duì)值賦權配置的(de)策略,它們的(de) t-statistic 阈值遞增;

2. 随著(zhe) n 的(de)增加,等權配置和(hé)按因子樣本内表現配置的(de)效果越來(lái)越接近;

3. 對(duì)于等權配置因子的(de)情況,能夠觀察到策略的(de)效果并不随 k 遞增;比如當 n = 10 時(shí),t-statistic 的(de)阈值随 k 先增大(dà)後減小。


f8.png


上述實證結果中,最有意思的(de)大(dà)概是第三條。對(duì)于等權配置的(de)情況,在一開始,使用(yòng)更多(duō)的(de)因子可(kě)以降低策略的(de)波動率,從而提升 t-statistic 的(de)阈值;而一旦因子個(gè)數超過最優值,越來(lái)越多(duō)排名靠後的(de)因子被選入,它們會降低策略的(de)收益率,從而降低 t-statistic 的(de)阈值。這(zhè)是在因子投資實務中需要考慮的(de)問題。從圖中可(kě)以看到,對(duì)于實證中考察的(de)最極端情況,即“從 100 個(gè)因子選 10 個(gè)最好的(de)”,僅僅靠運氣,以随機因子構建的(de)策略在中證 500 成分(fēn)股的(de)樣本内回測中就能取得(de)高(gāo)達 7 以上的(de) t-statistic 阈值。Data mining 造成的(de) selection bias 和(hé) overfitting bias 不容小視。


4 結語


近年來(lái),海外學術界越來(lái)越意識到 multiple hypothesis testing 造成的(de)因子分(fēn)析中 data mining 的(de)問題。一些先進的(de)統計手段被提出以幫助鑒别哪些是真正有效的(de)因子,哪些僅僅是運氣。這(zhè)些文獻包括《出色不如走運(II)?》中介紹的(de)那些,以及本文提及的(de) Novy-Marx (2015)。


在 empirical asset pricing 和(hé) factor investing 方面,我們都是 data mining 的(de)好手。拿來(lái)一個(gè)因子,如果不好使,可(kě)以對(duì)它進行差分(fēn) —— 美(měi)其名曰增長(cháng)率;再不好使,二階差分(fēn) —— 美(měi)其名曰加速度;還(hái)不好使,行業中性、市值中性試一下(xià)、用(yòng)各種其他(tā)因子回歸得(de)到殘差再試一下(xià);對(duì)于選出的(de)因子,等權配如果效果不理(lǐ)想,可(kě)以按照(zhào)事後夏普率配一下(xià);還(hái)不理(lǐ)想?使用(yòng)滾動窗(chuāng)口進行動态因子擇時(shí)……


誠然,對(duì)于有嚴謹金融邏輯的(de)因子 —— 比如 ROE —— 我們沒有必要把它和(hé)一幫其他(tā)“邪門”因子一起比較,然後要求 ROE 也(yě)有非常高(gāo)的(de) t-statistic,這(zhè)是對(duì)統計手段的(de)走火入魔。但是,對(duì)于很多(duō)純粹靠 data mining 加工出來(lái)的(de)因子,本文使用(yòng)随機因子的(de)實證結果定量說明(míng)了(le)僅靠運氣就能夠達到的(de)效果,從而幫助判斷選股因子是否真正有效。


While one should combine multiple signals they believe in, one should not believe in a combination of signals simply because they backtest well together.



參考文獻 

Novy-Marx, R. (2015). Backtesting strategies based on multiple signals. NBER Working Paper, No. 21329.



免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。