Portfolio Sort 的(de)源起、中興和(hé)未來(lái)

發布時(shí)間:2024-02-23  |   來(lái)源: 川總寫量化(huà)

作者:石川

摘要:Portfolio Sort 是實證資産定價和(hé)因子投資中的(de)常見方法。本文帶你了(le)解 Portfolio Sort 的(de)源起,中興和(hé)未來(lái)。


1 源起


資産定價的(de)研究目标是解釋不同資産的(de)預期收益率在截面上的(de)差異。爲了(le)構造因子、或者爲了(le)檢驗給定的(de)定價模型,選擇适當的(de)資産(被稱爲 test assets)十分(fēn)關鍵。在這(zhè)方面,一個(gè)自然的(de)想法是使用(yòng) individual assets,比如個(gè)股。但是個(gè)股層面巨大(dà)的(de) idiosyncratic noise 使得(de)估計得(de)到的(de) beta 誤差很大(dà),造成 errors-in-variables(EIV)等問題


正因如此,在最早檢驗 CAPM 的(de)時(shí)候,無論是 Black, Jensen, and Scholes (1972) 還(hái)是 Fama and MacBeth (1973) 都選擇使用(yòng)投資組合代替個(gè)股。具體而言,他(tā)們将個(gè)股按照(zhào)其曆史 beta 的(de)大(dà)小排序,然後構成不同的(de)投資組合,并檢驗這(zhè)些投資組合的(de)收益率和(hé) beta 的(de)關系。這(zhè)背後隐含的(de)邏輯是,個(gè)股 beta 的(de)估計誤差相互抵消,因此投資組合的(de) beta 估計值更準确。


這(zhè)就是最早的(de) portfolio sort。


2 中興


然而,真正讓 portfolio sort 成爲實證研究标配的(de)是 Fama and French (1992, 1993)。Fama 和(hé) French 利用(yòng) portfolio sort 分(fēn)别研究了(le) size、value 等異象并提出了(le) Fama-French 三因子模型。頗爲有意思的(de)是,在研究異象的(de)時(shí)候,股票(piào)被分(fēn)爲 10 組;然而在構造因子的(de)時(shí)候,股票(piào)則是依照(zhào)市值和(hé) BM 分(fēn)别被分(fēn)爲了(le)兩組和(hé)三組(下(xià)圖展示了(le) SMB 和(hé) HML 兩個(gè)因子的(de)構造方法)。


f1.png


構造因子時(shí)的(de)分(fēn)組數通(tōng)常小于研究異象時(shí)的(de)分(fēn)組數。這(zhè)背後的(de)邏輯并不難理(lǐ)解:爲了(le)控制市值的(de)影(yǐng)響,構造因子往往使用(yòng)目标變量和(hé)市值獨立雙重排序。如果每個(gè)變量下(xià)分(fēn)的(de)組太多(duō),那麽一些投資組合可(kě)能就沒有足夠數量的(de)股票(piào)。


作爲實證研究的(de)典範,Fama 和(hé) French 開創的(de)傳統被自然而然地延續了(le)下(xià)來(lái)。後續的(de)一衆實證研究,在通(tōng)過 portfolio sort 研究異象時(shí),無不采用(yòng) 10 組的(de)劃分(fēn);而當構造因子時(shí),使用(yòng)的(de)組數則要少得(de)多(duō)。John Cochrane 在 AFA 主席演講時(shí),關于 portfolio sort 曾評價道:


f2.png


上述選擇組數的(de)做(zuò)法聽(tīng)上去是如此的(de)理(lǐ)所應當,以至于沒有誰會質疑它的(de)合理(lǐ)性。然而事實真的(de)如此嗎?從數學上說,portfolio sort 其實就是 nonparametric cross-sectional regression estimator。Cochrane (2011) 裏面的(de)這(zhè)張圖清晰地表明(míng)了(le)這(zhè)一點。


f3.png


作爲一個(gè) nonparametric/kernel estimator,portfolio sort 卻是一個(gè)非标準化(huà)的(de)方法。比如,從 kernel estimator 的(de)角度來(lái)理(lǐ)解,每個(gè)分(fēn)組中的(de) asset 的(de)收益率估計值就由其所在組的(de)所有 assets 的(de)收益率均值決定。然而,portfolio sort 的(de)非标準之處在于臨界資産的(de)分(fēn)組。比如,以上圖中的(de) log(B/M) 爲例,如果某個(gè)公司的(de)數值稍稍小了(le)一點,那麽它就可(kě)能被劃分(fēn)到第 1 組,如果它的(de)數值稍稍高(gāo)了(le)一些,它就會被劃分(fēn)到第 2 組。這(zhè)種跳變和(hé) kernel regression 中常見的(de) kernel 完全不同(比如 Gaussian kernel)。因此,盡管 portfolio sort 簡單好用(yòng)且在實證研究中發揮了(le)重要的(de)作用(yòng),但人(rén)們對(duì)它的(de)統計特性卻知之甚少。


除了(le)上面提到的(de)問題之外,另一個(gè)問題是股票(piào)數據是 unbalanced data,意味著(zhe)截面上的(de)股票(piào)個(gè)數會随時(shí)間會發生巨大(dà)的(de)變化(huà)。以下(xià)圖爲例,它展示了(le) CRSP 中所有股票(piào)以及 NYSE 上市的(de)股票(piào)的(de)數量随時(shí)間的(de)變化(huà)。就全部股票(piào)而言,在 1960 年之前截面上不足 2000 支股票(piào);然後在 70 年代發生了(le)跳變,并在 90 年代上升至将近 8000 支;最近 20 年又逐漸下(xià)降至 4000 支。面對(duì)如此巨變的(de)截面股票(piào)數量,我們不禁要問,忽視股票(piào)數量的(de)變化(huà)而一直采用(yòng) 10 分(fēn)組是否合理(lǐ)?如果不甚合理(lǐ),那麽應該如何确定最優的(de)分(fēn)組數?這(zhè)個(gè)最優的(de)分(fēn)組數又是否和(hé)截面上的(de)股票(piào)數量有關?


f4.png


毫無疑問,繼承自 Fama and French 的(de) portfolio sort 承載和(hé)見證了(le)實證研究的(de)過去。但展望未來(lái),通(tōng)過将 portfolio sort 視爲 nonparametric estimator,了(le)解其性質,并回答(dá)上面提到的(de)那些問題,才代表著(zhe)實證研究方法的(de)進步。


3 未來(lái)


Cattaneo et al. (2020) 對(duì)上述問題進行了(le)系統的(de)回答(dá)。該文通(tōng)過将 portfolio sort 視爲一個(gè) nonparametric estimator,提出了(le)一個(gè)關于它的(de)估計和(hé)推斷的(de)通(tōng)用(yòng)框架,并介紹了(le)有效的(de)漸近推斷方法。它通(tōng)過最小化(huà)估計量的(de)均方誤差,爲挑選最優分(fēn)組數提供了(le)理(lǐ)論依據。他(tā)們的(de)研究發現,最優的(de)分(fēn)組數和(hé)總的(de)期數以及截面上的(de)資産個(gè)數二者皆密切相關。我們借用(yòng)該文的(de)圖 1 從直覺上理(lǐ)解一下(xià)背後的(de)原因。


f5.png


爲了(le)簡化(huà)討(tǎo)論,假設截面上資産個(gè)數不随時(shí)間變化(huà)。先看圖中的(de)第一行,顯示了(le)   (即分(fēn) 4 組)的(de)情況。首先最左邊   是隻有一期數據得(de)到的(de)分(fēn)組結果。當   時(shí),由于每個(gè)截面的(de)投資組合是分(fēn)别形成的(de),因此 estimator 變得(de)更爲複雜(zá)(是兩個(gè)截面分(fēn)組的(de)平均)。第一行最右側展示了(le)當   (典型的(de)實證研究往往有數百期月(yuè)頻(pín)數據)時(shí)的(de)結果。從這(zhè)三張圖可(kě)以看到,整個(gè)過程中我們保持分(fēn)組數   不變,然而   的(de)增加使得(de) estimator 更加平滑。實證研究對(duì)于   增加導緻的(de)平滑如何影(yǐng)響 estimator 并沒有充分(fēn)的(de)認識,而這(zhè)個(gè)結果也(yě)暗示著(zhe)   的(de)選擇與   有關。


另一方面,圖中第二行考察了(le)   的(de)情況,從左到右仍然依次是   以及   。将這(zhè)兩行的(de)結果放在一起比較,可(kě)以看到偏差和(hé)方差之間的(de)權衡。當   很小時(shí),每組内的(de)資産很多(duō),因此 estimator 的(de)方差較低,但是由于可(kě)能包含了(le)很多(duō)無關的(de)資産,因此偏差會很大(dà)。另一方面,當   很大(dà)時(shí),偏差會降低,而方差則會增大(dà)。因此,最優的(de)J應該由具體研究的(de)數據特征來(lái)決定。爲了(le)保持估計量的(de)一緻性,随著(zhe)總的(de)期數以及截面上資産個(gè)數的(de)增大(dà),   應快(kuài)速增大(dà)以減少偏差,但同時(shí)又不能變化(huà)太快(kuài)以避免方差的(de)激增。


最終,Cattaneo et al. (2020) 給出了(le)如下(xià)結果:   期最優的(de)分(fēn)組數   和(hé)總的(de)期數T以及截面上的(de)資産個(gè)數   的(de)關系爲


   


其中   是一個(gè)依賴于數據生成過程的(de)常數。對(duì)應到實證,最優的(de)分(fēn)組數遠(yuǎn)大(dà)于常見的(de) 10 組這(zhè)個(gè)選擇,随截面上 assets 個(gè)數不同,最優的(de)分(fēn)組數的(de)變化(huà)範圍從數十到上百。值得(de)一提的(de)是,上述公式是對(duì)于構造異象而言。對(duì)于構造因子,Cattaneo et al. (2020) 給出了(le)一個(gè)類似的(de)關系。


在實證方面,該文以 size 和(hé) momentum 爲例,對(duì)比了(le)他(tā)們的(de)方法和(hé)傳統的(de)分(fēn) 10 組方法(下(xià)圖展示了(le)動量的(de)結果,左側爲該文的(de)方法,右側爲常規的(de) portfolio sort 結果)。從結果可(kě)知,1980 到 2015 這(zhè)個(gè)實證區(qū)間中,投資于過去的(de)輸家所導緻的(de)損失在增大(dà):在整個(gè)實證區(qū)間内,輸家組的(de)平均收益率約爲   ,而在 1980-2015 的(de)區(qū)間内這(zhè)個(gè)數值下(xià)降到   。因此,動量因子的(de)空頭部分(fēn)使該因子在這(zhè)個(gè)區(qū)間更加有利可(kě)圖,且這(zhè)一結論在排除金融危機等情況下(xià)依然穩健。反觀傳統的(de) portfolio sort 方法,它并不能提供同樣的(de)發現。


f6.png


除單變量排序外,Cattaneo et al. (2020) 還(hái)對(duì)他(tā)們的(de) estimator 進行了(le)擴展,使其可(kě)以同時(shí)考慮多(duō)個(gè)變量,進行多(duō)變量排序。鑒于雙重排序在構造因子時(shí)十分(fēn)常見,這(zhè)種擴展顯得(de)尤爲必要。但另一方面,和(hé)傳統的(de)多(duō)變量排序一樣,他(tā)們的(de) estimator 也(yě)受到維數災難的(de)影(yǐng)響,即随著(zhe)用(yòng)于排序的(de)變量的(de)數量的(de)增加,其性能會下(xià)降。爲了(le)解決這(zhè)個(gè)問題,他(tā)們進一步允許其他(tā)條件變量以參數的(de)形式進入模型。這(zhè)種拓展在 portfolio sort 和(hé) cross-sectional regression 之間實現了(le)一定程度的(de)融合,但又不像純粹的(de) regression 那樣施加了(le)參數化(huà)的(de)假設,因此更加靈活。


無論是構造定價因子,還(hái)是構造 test assets 來(lái)檢驗多(duō)因子模型,portfolio sort 都至關重要。優秀的(de) test assets 應該能體現出資産收益率在 cross-section 的(de)差異。從這(zhè)個(gè)角度上說,忽視數據的(de)特征而對(duì)所有變量都一視同仁、分(fēn)成 10 組的(de)做(zuò)法确實略顯粗糙。Cattaneo et al. (2020) 爲 portfolio sort 确定最優分(fēn)組數量提供了(le)一種數據驅動方法,并表明(míng)最優分(fēn)組數量随期數以及截面上資産的(de)個(gè)數而變化(huà),爲今後關于異象和(hé)因子的(de)研究提供了(le)新的(de)啓發。



參考文獻

Black, F., M. C. Jensen, and M. Scholes (1972). The capital asset pricing model: Some empirical tests. In M. C. Jensen (Ed.), Studies in the Theory of Capital Markets. New York, NY: Praeger.

Cattaneo, M. D., R. K. Crump, M. H. Farrell, and E. Schaumburg (2020). Characteristic-sorted portfolios: Estimation and inference. Review of Economics and Statistics 102(3), 531 – 551.

Cochrane, J. H. (2011). Presidential address: Discount rates. Journal of Finance 66(4), 1047 – 1108.

Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium: Empirical tests. Journal of Political Economy 81(3), 607 – 636.



免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。