實證研究 —— A 股上顯著的(de)風格因子
發布時(shí)間:2018-12-18 | 來(lái)源: 川總寫量化(huà)
作者:石川
摘要:本文檢驗了(le) A 股市場(chǎng)上主流風格因子的(de)顯著性。以中證 500 指數爲例,顯著的(de)風格因子包括 beta、earnings yield 以及 liquidity。
1 引言
前文《解釋股票(piào)截面預期收益差異的(de)獨立因子》介紹了(le) Review of Financial Studies 上發表的(de) Green, Hand and Zhang (2017) 一文(以下(xià)稱 GHZ)。該文使用(yòng) Fama-MacBeth regression(Fama and MacBeth 1973)同時(shí)檢驗了(le) 94 個(gè)美(měi)股上的(de)因子,并發現了(le) 12 個(gè)能夠解釋股票(piào)預期收益率截面差異的(de)顯著因子。
本文按照(zhào) GHZ 的(de)思路對(duì) A 股上的(de)風格因子進行簡單實證,看看到底哪些因子是顯著的(de)。爲了(le)使實證結果更有指導價值,本文選用(yòng)中國市場(chǎng)上主流的(de)風格因子進行討(tǎo)論。在針對(duì) A 股的(de)因子研究中,MSCI 旗下(xià)的(de) Barra 大(dà)概是最知名的(de) —— 這(zhè)主要因爲它家 marketing 做(zuò)的(de)比較好;比如 MSCI 在今年 8 月(yuè)底在北(běi)京、深圳、香港三地同時(shí)高(gāo)調發布了(le)最新的(de)中國模型 CNE6。除了(le) MSCI 之外,國内也(yě)有一些優秀的(de)風險因子數據提供商,這(zhè)些本土化(huà)的(de)風格因子模型由于更接地氣,也(yě)廣泛被市場(chǎng)認可(kě)。
根據 GHZ 提出的(de)方法,檢驗顯著因子的(de)過程包括如下(xià)步驟:
1. 通(tōng)過在每一期進行截面回歸得(de)到所有風格因子收益率的(de)時(shí)間序列(即 Fama-MacBeth regression);
2. 對(duì)每個(gè)因子,求出收益率的(de)均值以及均值的(de)标準誤;
3. 計算(suàn)每個(gè)因子的(de) t-statistic 以及 p-value;
4. 由于 multiple testing(即同時(shí)檢驗多(duō)個(gè)因子)的(de)影(yǐng)響,對(duì) p-value 進行修正;
5. 根據修正後的(de) p-value 是否小于 0.05 判斷顯著的(de)因子。
下(xià)面以中證 500 成分(fēn)股爲例,分(fēn)析風格因子在其上的(de)顯著性。行文将逐一說明(míng)上述步驟。
2 因子收益率
在因子顯著性檢驗中,最重要的(de)無疑是獲得(de)靠譜的(de)因子收益率時(shí)序數據。在實證中,我們采用(yòng)米筐科技提供的(de)因子收益率數據。作爲國内領先的(de)量化(huà)投資數據和(hé)解決方案提供商,米筐高(gāo)質量的(de)風險因子模型一共包括 39 個(gè)因子,其中市場(chǎng)聯動因子 1 個(gè),申萬一級行業因子 28 個(gè),風格因子 10 個(gè)。此外,爲了(le)更好的(de)捕捉風格因子在不同指數上表現的(de)差異,米筐提供了(le)以常用(yòng)指數(包括滬深 300、中證 500、中證 800)的(de)成分(fēn)股以及全市場(chǎng)爲股票(piào)池的(de)因子收益率數據。
實證的(de)回測期從 2010 年 1 月(yuè) 1 日到 2018 年 11 月(yuè) 30 日。這(zhè) 10 個(gè)風格因子包括:beta、 book-to-price、earnings yield、growth、leverage、liquidity、momentum、nonlinear size、residual volatility 以及 size。這(zhè)些風格因子事實上是 10 大(dà)類因子,每一大(dà)類内部又有進一步的(de)細分(fēn)因子。這(zhè) 10 大(dà)類因子間進行了(le)必要的(de)正交化(huà)處理(lǐ),相關性較低。本文的(de)實證使用(yòng)這(zhè) 10 大(dà)類因子,而非更細分(fēn)的(de)小因子。在計算(suàn)因子收益率時(shí),該模型使用(yòng)全部 39 個(gè)因子在每一期進行截面回歸(即 Fama-MacBeth regression),保證了(le)得(de)到的(de)風格因子投資組合是這(zhè)些因子的(de)純因子組合,從而排除對(duì)别的(de)因子的(de)暴露、更好的(de)評價目标因子獲取超額收益的(de)效果。在實證的(de)回測期内,中證 500 指數上因子日頻(pín)收益率如下(xià)所示。
有了(le)收益率的(de)時(shí)間序列,我們接下(xià)來(lái)計算(suàn)收益率均值和(hé)均值的(de)标準誤。
3 收益率均值和(hé)均值标準誤
在 GHZ 這(zhè)篇文章(zhāng)中,檢驗美(měi)股上有效因子的(de)頻(pín)率是月(yuè)頻(pín)。而我們使用(yòng)的(de)因子收益率是日頻(pín) —— 因爲該模型最重要的(de)是對(duì)風險建模。爲了(le)在 A 股上複現 GHZ 的(de)研究思路,我們先進行必要的(de)處理(lǐ),計算(suàn)月(yuè)頻(pín)因子收益率的(de)期望以及标準誤。對(duì)于收益率,使用(yòng)每個(gè)月(yuè)内所有交易日的(de)累積收益率作爲該因子的(de)月(yuè)頻(pín)收益率。對(duì)月(yuè)頻(pín)收益率在時(shí)序上取均值就得(de)到月(yuè)均收益率,記爲 μ。爲了(le)計算(suàn)收益率均值的(de) standard error,首先需要求出月(yuè)頻(pín)收益率的(de)标準差(standard deviation)。爲此,本文借鑒 Barra 的(de)處理(lǐ)方法,即計算(suàn)日頻(pín)收益率的(de)标準差,并将其推廣到月(yuè)頻(pín)。
在計算(suàn)日頻(pín)收益率的(de)标準差時(shí),必須要主要到因子收益率在時(shí)間序列上存在很強的(de)自相關性,這(zhè)會影(yǐng)響收益率标準差的(de)計算(suàn)。以 beta、book-to-price、earnings yield 以及 growth 四個(gè)因子爲例,下(xià)圖顯示了(le)其因子收益率的(de)自相關系數随滞後期的(de)變化(huà)。每個(gè)圖中陰影(yǐng)部分(fēn)爲 5% 的(de)置信區(qū)間。在很大(dà)的(de)滞後期範圍内,日頻(pín)因子收益率均存在顯著的(de)自相關性。
由于上述原因,在使用(yòng)因子收益率時(shí)間序列計算(suàn)其标準差時(shí),必須考慮對(duì)時(shí)序相關性進行修正。爲此,我們采用(yòng) Newey-West 調整(Newey and West 1987),在調整中選擇的(de)最大(dà)滞後期爲 50。令 s_d 表示經 Newey-West 調整後的(de)日頻(pín)因子收益率的(de)标準差(爲了(le)簡化(huà)表達式,省略了(le)表示具體某個(gè)因子的(de)下(xià)标)。在得(de)到日頻(pín)标準差之後,假設每個(gè)月(yuè)内有 22 個(gè)交易日并通(tōng)過下(xià)式得(de)到月(yuè)頻(pín)因子收益率的(de)标準差 s:
最後,使用(yòng)月(yuè)頻(pín)因子收益率的(de)标準差計算(suàn)出因子收益率均值的(de) standard error(n 表示月(yuè)頻(pín)期數):
通(tōng)過上述處理(lǐ)就可(kě)以求出我們關心的(de)變量,因子月(yuè)均收益率 μ 和(hé)它的(de)标準誤 s.e.(μ)。實證中,中證 500 指數上這(zhè)10個(gè)風格因子的(de) μ 和(hé) s.e.(μ) 分(fēn)别如下(xià)表所示。
下(xià)面就來(lái)計算(suàn) t-statistic 以及 p-value。
4 t-statistic and p-value
有了(le) μ 和(hé) s.e.(μ),根據 t-statistic 的(de)定義有:
由于月(yuè)頻(pín)期數超過 100,因此 t 分(fēn)布和(hé)正态分(fēn)布十分(fēn)接近,故采用(yòng)正态分(fēn)布将上述 t-statistic 轉化(huà)爲 p-value。就一個(gè)因子是否顯著來(lái)說,我們關注的(de)是它的(de) t-statistic 是否顯著不爲零,其具體取值可(kě)正可(kě)負。從選股的(de)角度來(lái)說,如果一個(gè)因子的(de)收益率顯著爲負,那麽隻需要将它的(de)多(duō)、空對(duì)調過來(lái)使用(yòng)即可(kě)。因此,依照(zhào) GHZ 的(de)計算(suàn)方法,本文計算(suàn)雙尾 p-value。具體的(de),由 t-statistic 計算(suàn) p-value 的(de)方法如下(xià):
上式中,Φ 表示标準正态分(fēn)布的(de)累積密度函數。中證 500 上 10 個(gè)風格因子的(de) t-statistic 及 p-value 分(fēn)别爲:
5 修正 p-value
在檢驗因子時(shí),multiple testing —— 同時(shí)檢驗很多(duō)因子并找到其中最顯著的(de) —— 是一個(gè)嚴重的(de)問題。爲了(le)正确評價因子是否顯著,必須考慮 multiple testing 的(de)影(yǐng)響、修正原始的(de) p-value。常見的(de)修正方法分(fēn)爲兩類:1. 以控制 family-wise error rate(族錯誤率)爲目标的(de) Bonferroni 和(hé) Holm 修正;2. 以控制 false discovery rate 爲目标的(de) BHY 修正。Family-wise error rate(FWER)和(hé) false discovery rate(FDR)代表著(zhe) Type I error 的(de)兩個(gè)不同的(de)定義。Type I error 是錯誤的(de)拒絕原假設,也(yě)叫 false positive 或 false discovery。在我們的(de)上下(xià)文中,它意味著(zhe)錯誤的(de)發現了(le)一個(gè)其實沒用(yòng)的(de)因子。
假設 K 個(gè)因子的(de) p-value 分(fēn)别爲 p_1、p_2、…、p_K。根據事先選定的(de)顯著性水(shuǐ)平,比如 0.05,其中 R 個(gè)因子在單因子測試中被認爲是顯著的(de)。換句話(huà)說,我們有 R 個(gè)發現(discoveries) —— 包括 true discoveries 和(hé) false discoveries。令 N_r ≤ R 代表 false discoveries 的(de)個(gè)數。FWER 和(hé) FDR 的(de)定義如下(xià):
從定義不難看出,FWER 是至少出現一個(gè) false discovery 的(de)概率,控制它對(duì)圍繞單一因子的(de)假設來(lái)說是相當嚴格的(de),會大(dà)大(dà)提升 Type II Error。相比之下(xià),FDR 控制的(de)是 false discoveries 的(de)比例,它允許 N_r 随 R 增加,是一種更溫和(hé)的(de)方法。此外,BHY 方法對(duì)檢驗統計量之間的(de)相關性不敏感,它的(de)适應性更強。無論采用(yòng)哪種方法,修正後的(de) p-value 通(tōng)常大(dà)于單一因子測試中得(de)到的(de) p-value,因此會有相當一部分(fēn)在單一檢驗中存活下(xià)來(lái)的(de)因子在修正後不再顯著。
依照(zhào) GHZ 使用(yòng)的(de)方法,本文采用(yòng) BHY 修正(Benjamini and Hochberg 1995, Benjamini and Yekutieli 2001)。它從諸多(duō)因子的(de)原始 p-value 中最大(dà)的(de)一個(gè)開始逆向修正,公式如下(xià):
由定義可(kě)知,原始 p-value 最大(dà)的(de)因子調整後的(de) BHY p-value 就是它自己。從第二大(dà) p-value 開始,依次按照(zhào)上述公式計算(suàn),計算(suàn)其他(tā)因子調整後的(de) BHY p-value。在中證 500 的(de)例子中,這(zhè) 10 個(gè)因子經調整後的(de) p-value 分(fēn)别如下(xià)所示(紅色标注出了(le)調整後 p-value 小于 0.05 的(de)顯著因子);作爲比較,同時(shí)給出了(le)原始 p-value。
不難發現,所有因子調整後的(de) p-value 均不小于原始 p-value。
6 顯著風格因子
本文第 2 到第 5 小結的(de)分(fēn)析最終在中證 500 上發現了(le)三個(gè)顯著因子: beta、earnings yield 以及 liquidity;而其他(tā)七個(gè)風格因子均無法獨立解釋中證 500 成分(fēn)股預期收益率的(de)截面差異。把這(zhè) 10 個(gè)風格因子的(de)累積收益率作圖如下(xià)。可(kě)以看到,這(zhè)三個(gè)因子(liquidity 需要多(duō)、空對(duì)調過來(lái)用(yòng))的(de)效果确實強于其他(tā)七個(gè)因子。在使用(yòng)了(le)純因子模型(Fama-MacBeth regression)并考慮了(le) multiple testing 帶來(lái)的(de)修正之後,人(rén)們熟知的(de) book-to-price、size 以及 residual volatility 等因子在中證 500 上則不再顯著。
除了(le)中證 500 指數外,米筐還(hái)提供滬深 300、中證 800 以及全市場(chǎng)上的(de)風格因子收益率。最終,按照(zhào)上述檢驗思路可(kě)以計算(suàn)出不同選股池上的(de)顯著因子,結果如下(xià)。
7 結語
本文使用(yòng) GHZ 的(de)方法檢驗了(le) A 股市場(chǎng)上主流的(de) 10 大(dà)風格因子的(de)顯著性。跨市場(chǎng)而言,顯著的(de)因子包括 beta、earnings yield、liquidity、nonlinear size 以及 residual volatility;但這(zhè)些風格因子在不同指數上的(de)效果也(yě)有所差别。需要說明(míng)的(de)是,無論是 Barra 的(de)中國股票(piào)模型,還(hái)是本土化(huà)的(de)優秀因子模型,它們首先都是一個(gè)風險模型,其次才是也(yě)可(kě)以當作收益率截面模型來(lái)用(yòng)。這(zhè)些模型最重要的(de)作用(yòng)是波動率預測和(hé)投資組合的(de)風險歸因。本文主要的(de)目的(de)是再次梳理(lǐ)檢驗因子顯著性的(de)流程,實證中涉及的(de)這(zhè) 10 大(dà)類因子未必就是最能捕捉 A 股市場(chǎng)上 asset pricing 機制的(de)因子。感興趣的(de)小夥伴可(kě)以嘗試更細分(fēn)的(de)因子。隻不過在 multiple testing 的(de)修正下(xià),我們預期很多(duō)因子僅僅是“看上去很美(měi)”。
參考文獻
Benjamini, Y. and Y. Hochberg (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society Series B 57, 289 – 300.
Benjamini, Y. and D. Yekutieli (2001). The control of the false discovery rate in multiple testing under dependency. Annals of Statistics 29, 1165 – 1188.
Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium: Empirical tests. Journal of Political Economy 81(3), 607 – 636.
Green, J., J. R. M. Hand, and X. F. Zhang (2017). The characteristics that provide independent information about average U.S. monthly stock returns. Review of Financial Studies 30(12), 4389 – 4436.
Newey, W. K. and K. D. West (1987). A simple, positive semi-definite, heteroskedasticity and autocorrelation consistent covariance matrix. Econometrica 55(3), 703 – 708.
免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。