寫給你的(de)金融時(shí)間序列分(fēn)析:回歸篇

發布時(shí)間:2024-06-04  |   來(lái)源: 川總寫量化(huà)

作者:石川

摘要:時(shí)間序列回歸分(fēn)析并非是簡單地将兩個(gè)序列進行回歸處理(lǐ),而是一個(gè)需要精心設計和(hé)仔細考量的(de)過程,每一步都涉及到對(duì)數據特性的(de)深入理(lǐ)解和(hé)對(duì)模型假設的(de)嚴格檢驗。


0 引言


本文繼續拓展《寫給你的(de)時(shí)間序列分(fēn)析》系列。系列的(de)前序文章(zhāng)《寫給你的(de)金融時(shí)間序列分(fēn)析:基礎篇》《寫給你的(de)金融時(shí)間序列分(fēn)析:初級篇》《寫給你的(de)金融時(shí)間序列分(fēn)析:進階篇》《寫給你的(de)金融時(shí)間序列分(fēn)析:應用(yòng)篇》和(hé)《寫給你的(de)金融時(shí)間序列分(fēn)析:補完篇》主要是針對(duì)單一時(shí)間序列的(de)檢驗和(hé)建模。本文則介紹多(duō)個(gè)時(shí)間序列之間的(de)回歸問題。


在時(shí)序回歸模型中,最簡單的(de)模型是靜态模型(static model):


  


在該模型中,“靜态”意味著(zhe)模型考察的(de)是  和(hé)  之間的(de)同期關系(比如做(zuò)多(duō)因子時(shí)序回歸檢驗)。與之相對(duì)應的(de)是有限分(fēn)布滞後模型(finite distributed lag model,FDL)。例如,一個(gè)  階 FDL 模型爲:


  


式中  爲當期的(de)  對(duì)  的(de)影(yǐng)響,它被稱爲 impact propensity;而全部系數之和(hé),即  ,則稱爲 long-run propensity。


不同于截面回歸,時(shí)序回歸的(de)難點在于各種(自、協)相關性的(de)處理(lǐ):包括解釋變量的(de)自相關性、随機擾動(error)的(de)自相關性;前、後不同期解釋變量和(hé) error 的(de)協相關性等。因此,在通(tōng)過回歸來(lái)分(fēn)析時(shí)間序列時(shí)需要格外小心,避免得(de)到錯誤的(de)統計推斷結果。本文的(de)主要内容包括,有限樣本下(xià) OLS 估計量的(de)性質、大(dà)樣本下(xià) OLS 估計量的(de)漸近性質、error 自相關性檢驗和(hé)應對(duì)、error 異方差性問題、僞回歸、協整及其推斷以及誤差修正模型。本文的(de) technique 部分(fēn)主要參考了(le) Wooldridge 的(de)神書(shū) Introductory Econometrics: A Modern Approach,特此說明(míng)。


1 Finite Sample Properties of OLS


在有限樣本下(xià),OLS 的(de)核心假設包括:


  • 假設一(Linear in parameters):總體中  和(hé)  滿足線性關系。 

  • 假設二(No perfect collinearity):解釋變量之間不存在完美(měi)的(de)共線性。

  • 假設三(Zero conditional mean):  。這(zhè)意味著(zhe)所有解釋變量都是外生的(de),即任何解釋變量,在任何時(shí)刻都和(hé)  不相關。


爲了(le)加強理(lǐ)解,我們再對(duì)假設三做(zuò)一些說明(míng)。首先,這(zhè)個(gè)假設中最重要的(de)就是  和(hé)任何時(shí)刻的(de)任何  都是不相關的(de)。因此,  是嚴格外生的(de)。如果  和(hé)  不相關且  ,則這(zhè)條假設自動成立。在上述三條假設下(xià),OLS 估計量是無偏的(de),即  。然而,如果  僅和(hé)同期的(de)解釋變量  之間滿足  ,則稱  是同期外生的(de)。它對(duì)于假設三而言是一種放松。在同期外生假設下(xià),OLS 估計量是一緻的(de),但(對(duì)于有限樣本來(lái)說)不一定是無偏的(de)。


除上述三條假設外,再考察下(xià)面兩個(gè)假設:


  • 假設四(Homoskedasticity):同方差,即  

  • 假設五(No serial correlation):  。這(zhè)條假設是關于 error 自相關性的(de)。它對(duì)解釋變量的(de)自相關性不做(zuò)任何假設。(解釋變量存在自相關性也(yě)是時(shí)序回歸模型的(de)特點之一。)

上述五條假設正是時(shí)序回歸模型的(de) Gauss-Markov 假設。當這(zhè)些假設均成立時(shí),


  


其中  是  的(de) total sum of squares,  是把  對(duì)其他(tā)解釋變量回歸的(de) R-squared。此外,以下(xià)這(zhè)個(gè)常見的(de) error 方差估計量也(yě)是無偏的(de):


  


其中  是期數、  是解釋變量的(de)個(gè)數。且 Gauss-Markov 定理(lǐ)指出,在上述五條假設都滿足下(xià),OLS 是 BLUE。此外,和(hé)截面回歸一樣,如果要進行統計推斷,就必須假設 error 的(de)分(fēn)布。這(zhè)就引出了(le)第六條假設,即  和(hé)解釋變量  完全獨立、且滿足 iid 正态分(fēn)布  。全部六條假設構成了(le)時(shí)間序列回歸的(de) Classical Linear Model (CLS) assumptions。在這(zhè)些假設下(xià),我們可(kě)以像截面回歸一樣,使用(yòng) t-statistic 來(lái)檢驗單一解釋變量的(de)回歸系數,用(yòng) F-statistic 來(lái)同時(shí)檢驗多(duō)個(gè)解釋變量的(de)回歸系數。


2 Asymptotic Properties of OLS


2.1 平穩性和(hé)弱相關性


對(duì)于絕大(dà)多(duō)數實際問題而言,前一節的(de) Gauss-Markov 假設都太嚴苛了(le),難以滿足(特别是解釋變量嚴格外生)。因此,比起考察有限樣本下(xià) OLS 估計量的(de)特性外,我們自然更關心在大(dà)樣本下(xià) OLS 估計量的(de)漸近性質。不過諷刺的(de)是,對(duì)于時(shí)序回歸模型而言,我們往往很難有足夠多(duō)的(de)樣本。(比如用(yòng)月(yuè)頻(pín)收益率數據檢驗一個(gè)多(duō)因子模型,那麽每年才有 12 個(gè)樣本,50 年也(yě)才有 600 個(gè)樣本。)不幸的(de)是,時(shí)序問題的(de)大(dà)樣本分(fēn)析比截面數據分(fēn)析複雜(zá)得(de)多(duō)。我們需要格外小心數據的(de)相關性。爲此,我們首先來(lái)回顧平穩性和(hé)弱相關性的(de)概念。


如果随機過程  在任意時(shí)刻的(de)分(fēn)布是一樣的(de),就說它滿足平穩性。嚴格的(de)平穩性是非常強的(de)假設。通(tōng)常,如果  不随時(shí)間變化(huà),且  不随  和(hé)  變化(huà),我們說  是協方差平穩過程(covariance stationary process)。在直覺上,平穩性的(de)要求不難理(lǐ)解:如果我們希望通(tōng)過回歸分(fēn)析來(lái)理(lǐ)解兩個(gè)變量之間的(de)關系,則需要假設這(zhè)種關系在時(shí)間上是穩定的(de)。如果兩個(gè)變量之間的(de)關系在每個(gè)時(shí)間段内任意變化(huà),而我們僅僅有關于它們的(de)一個(gè) realization(畢竟“曆史無法重來(lái)”),那麽顯然無法指望能通(tōng)過時(shí)序回歸模型挖掘出二者之間的(de)靠譜關系。


對(duì)于一個(gè)平穩序列,如果  和(hé)  随  的(de)增加幾乎是獨立的(de),那麽我們稱它滿足弱相關性。對(duì)于上面提到的(de)協方差平穩過程,如果  随  的(de)增大(dà)逐漸趨近于 0,則它滿足弱相關性,這(zhè)也(yě)稱爲漸近非相關。這(zhè)裏最重要的(de)假設是  前後之間的(de)影(yǐng)響不是“永久性”的(de),而是會逐漸衰退至沒有影(yǐng)響。值得(de)一提的(de)是,一個(gè)非平穩的(de)時(shí)間序列(比如有趨勢的(de)序列)也(yě)可(kě)以滿足弱相關性。這(zhè)類過程稱爲趨勢平穩過程(trend-stationary process)。


2.2 漸近性質


一旦平穩性和(hé)弱相關性得(de)到滿足,大(dà)數定律和(hé)中心極限定理(lǐ)就可(kě)以适用(yòng),因此在大(dà)樣本下(xià)可(kě)以獲得(de) OLS 估計量的(de)一些良好性質,從而幫助分(fēn)析  和(hé)  之間的(de)關系。下(xià)面我們來(lái)看看大(dà)樣本下(xià),OLS 估計量有哪些漸近性質。首先來(lái)看假設:


  • 假設一(Linear in parameters):這(zhè)一條和(hé)前一節中的(de)假設一相同。除此之外,我們假設  滿足平穩性和(hé)弱相關性。

  • 假設二(No perfect collinearity):解釋變量之間不存在完美(měi)的(de)共線性。

  • 假設三(Zero conditional mean):  。相比于前一節中的(de)假設三,此處把它放松到  期  和(hé)解釋變量  的(de)獨立性了(le)。相比于嚴格外生,這(zhè)一條要弱很多(duō),隻限制同時(shí)期的(de)相關性,而對(duì)于  和(hé)任何非  時(shí)刻的(de)解釋變量之間的(de)關系不做(zuò)任何限制。當平穩性滿足時(shí),如果  對(duì)某一期  成立,則它對(duì)所有的(de)  都成立。然而,這(zhè)條假設下(xià)允許  期的(de)  影(yǐng)響未來(lái)的(de)解釋變量  。


當以上三條假設均滿足時(shí),OLS 估計量是一緻的(de),即  。需要注意的(de)是,由于上述假設放松了(le)解釋變量的(de)外生性,因此我們隻能在大(dà)樣本下(xià)得(de)出 OLS 估計量的(de)一緻性,而無法得(de)出無偏性。


接下(xià)來(lái),和(hé)本文第 1 節一樣,再加上假設四和(hé)假設五:


  • 假設四(Homoskedasticity):同方差,即  

  • 假設五(No serial correlation):  


當上述五個(gè)假設都滿足時(shí),OLS 估計量在大(dà)樣本下(xià)表現出很好的(de)漸近性質:(1)OLS 估計量滿足漸近正态分(fēn)布;(2)所有相關的(de) t-statistic 和(hé) F-statistic 都是漸近成立的(de);(3)OLS 是漸近有效的(de),即它的(de)方差相比于其他(tā) estimators 的(de)方差更低。


3 Error Serial Correlation


由以上介紹可(kě)知,error 存在自相關并不影(yǐng)響 OLS 估計量的(de)無偏性。然而,它會影(yǐng)響  的(de)方差的(de)估計。在這(zhè)種情況下(xià),所有相應的(de) test(例如 t-test、F-test)哪怕在大(dà)樣本下(xià)也(yě)沒有好的(de)漸近性質。因此,對(duì)于統計推斷而言,檢驗并應對(duì) error 的(de)自相關性十分(fēn)必要。


3.1 自相關性檢驗


一般來(lái)說,我們可(kě)以檢驗 error 是否滿足 AR(1) 過程。此時(shí),取決于解釋變量是否嚴格外生,又分(fēn)爲兩種情況。首先假設解釋變量嚴格外生,則可(kě)以通(tōng)過如下(xià)的(de)步驟檢驗:


  • Step 1: 用(yòng)  對(duì)  時(shí)序回歸,得(de)到殘差序列  。

  • Step 2: 用(yòng)  對(duì)  時(shí)序回歸,即  。

  • Step 3: 考察回歸系數  的(de) t-statistic,并進行統計推斷。如果拒絕原假設  ,則說明(míng) error 存在自相關性。


值得(de)一提的(de)是,上述第二步中的(de)自回歸模型中假設了(le)  滿足同方差。如果  不滿足該性質,可(kě)以使用(yòng) Breusch-Pagan test 來(lái)檢驗異方差性(見本文第 4 節)。如果存在異方差,則可(kě)以計算(suàn)  的(de) heteroskedasticity-robust standard error,從而得(de)到 heteroskedasticity-robust t-statistic。


除了(le)上述方法外,另一個(gè)常見的(de)檢驗是 Durbin-Watson Test(DW Test,比如 Python 的(de) OLS 回歸結果會返回 DW test 的(de)值)。該統計量爲:


  


通(tōng)常情況下(xià),  和(hé) DW 統計量近似滿足如下(xià)關系:  。因此,如果 DW 統計量接近 2,則說明(míng) error 沒有自相關性。


接下(xià)來(lái)看看解釋變量不是完全外生的(de)情況。在這(zhè)種情況下(xià),上述檢驗不再有效(及時(shí)在大(dà)樣本下(xià)也(yě)是如此),因此不能使用(yòng)。此時(shí),可(kě)以将上述三步走中的(de)第二步改爲如下(xià)的(de)回歸模型:


  


即使用(yòng)  對(duì)  以及  進行時(shí)序回歸。之後,便可(kě)以對(duì)  進行常規的(de)統計推斷。此外,上述檢驗也(yě)可(kě)以方便地拓展到殘差滿足  的(de)情況,即在第二步考慮如下(xià)回歸模型:


  


然後,可(kě)以使用(yòng) F test 檢驗  到  是否聯合顯著。如果對(duì)異方差有擔憂,也(yě)同樣可(kě)以使用(yòng) heteroskedasticity robust F-statistic。此外,也(yě)可(kě)以使用(yòng) Lagrange Multiplier (LM) statistic,這(zhè)種檢驗也(yě)被稱爲 Breusch-Godfrey test,它的(de)檢驗統計量是  ,其中 R-squared 是上述第二步中的(de) Goodness-of-fit。


3.2 修正 Error 自相關性


如果 error 存在在相關性,我們可(kě)以對(duì)它進行處理(lǐ)。假設 error 是一個(gè) AR(1) 過程且  已知:


  


由上述模型可(kě)知  。由于  已知,因此對(duì)原始時(shí)間序列模型變形可(kě)得(de)(爲了(le)簡化(huà)數學公式,假設隻有一個(gè)解釋變量,多(duō)個(gè)解釋變量的(de)情況可(kě)以非常容易的(de)擴展):


  


上述變形後得(de)到的(de)估計量爲 GLS 估計量,它是 BLUE,因此 t test 和(hé) F test 都可(kě)以正常使用(yòng)。GLS 估計量中假設  已知。然而,在實際問題中,這(zhè)幾乎是不切實際的(de),因此隻能對(duì)  進行估計,得(de)到  。在這(zhè)種情況下(xià),上述 GLS 變成 feasible GLS(FGLS)。假設 error 滿足某個(gè)參數未知的(de) AR(1) 過程,則 FGLS 的(de)步驟爲:


  • Step 1: 用(yòng)  對(duì)  時(shí)序回歸,得(de)到殘差序列  。

  • Step 2: 用(yòng)  對(duì)  時(shí)序回歸,即  。

  • Step 3: 考慮如下(xià)回歸模型(注意:該模型沒有截距項):  其中  ;  ;  ;  ;  ;  。

在這(zhè)個(gè)回歸模型中,t test 和(hé) F test 都在大(dà)樣本下(xià)是漸近有效。上述的(de)模型看上去如此複雜(zá)是因爲  是第一個(gè)點,因此沒法差分(fēn)消除 error 自相關性的(de)影(yǐng)響,所以對(duì)它進行了(le)特殊處理(lǐ)。上述這(zhè)個(gè)考慮了(le)時(shí)序上第一個(gè)點的(de) FGLS 也(yě)被稱爲 Prais-Winsten estimation。此外,也(yě)可(kě)以舍棄第一個(gè)點,那麽上述回歸将會從  開始,表達式也(yě)會變得(de)更簡單,它被稱爲 Cochrane-Orcutt estimation。對(duì)于很多(duō)經濟學問題,時(shí)序上樣本點是很寶貴的(de),因此不願意舍棄第一個(gè)點而采用(yòng) PW estimation。


無論  是否已知,即無論我們用(yòng) GLS 還(hái)是 FGLS 還(hái)修正殘差相關性,上述的(de)核心假設都是解釋變量是完全外生的(de)。當這(zhè)個(gè)假設難以滿足的(de)時(shí)候,FGLS estimator 則不滿足一緻性。換句話(huà)說,費了(le)半天勁的(de) FGLS 可(kě)能還(hái)不如 OLS 好使。最近幾年,人(rén)們更傾向于仍然使用(yòng) OLS,但此時(shí)由于 error 存在自相關性,因此需要進行 serial correlation-robust inference。


3.3 Serial Correlation-Robust Inference for OLS


考慮如下(xià)時(shí)序回歸模型:


  


爲了(le)方便討(tǎo)論,假設我們關注  并希望得(de)到它的(de) serial correlation-robust standard error。爲此,可(kě)以采取如下(xià)步驟:


  • Step 1:進行 OLS 回歸,得(de)到  的(de) standard error,記爲“  ”,同時(shí)得(de)到  以及殘差序列  。

  • Step 2:以  爲被解釋變量(因爲我們關心的(de)是  ),以其他(tā)  爲自變量,構造如下(xià)回歸模型:  

  • Step 3:利用(yòng) OLS 得(de)到殘差序列  。用(yòng)該序列和(hé)  序列相乘得(de)到新的(de)序列 

 。

  • Step 4:選定希望考慮的(de)自相關 lags  ,計算(suàn)變量  (有沒有想起 Newey-West):

  

  • Step 5:使用(yòng)以下(xià)公式得(de)到  的(de) serial correlation-robust standard error:

  


通(tōng)常情況下(xià),如果 error 确實存在自相關性,那麽上述得(de)到的(de) standard error 會大(dà)于 OLS 的(de) standard error。當 error 自相關非常嚴重時(shí),使用(yòng)上述方法得(de)到的(de) standard error 往往非常大(dà),導緻回歸系數不再顯著。在實踐中,如果能夠合理(lǐ)的(de)認爲解釋變量是完全外生的(de)話(huà),則建議(yì)使用(yòng) FGLS;反之,如果我們對(duì)解釋變量的(de)外生性存在非常強烈的(de)疑問時(shí),可(kě)以選擇 OLS + serial correlation-robust standard error。


4 Heteroskedasticity


異方差意味著(zhe) error 的(de)波動随  發生變化(huà)。比如,在我們以收益率爲被解釋變量而進行時(shí)序回歸時(shí),幾乎可(kě)以肯定 error 存在異方差性。爲此,可(kě)以使用(yòng) Breusch-Pagan test 來(lái)檢驗異方差。不過需要注意的(de)是,該檢驗的(de)前提是必須保證 error 沒有自相關性。所以,通(tōng)常爲了(le)檢驗異方差,也(yě)要先檢驗自相關性。


Breusch-Pagan test 的(de)步驟總結如下(xià):


  • Step 1:通(tōng)過 OLS 來(lái)估計原始回歸模型,得(de)到殘差序列  :  

  • Step 2:使用(yòng)  作爲被解釋變量,并考慮如下(xià)回歸模型,計算(suàn)其 R-squared,記爲  :  

  • Step 3:構建 F-statistic 或 LM-statistic 如下(xià):

  

  

  • Step 4:根據 F-statistic 或 LM-statistic 判斷是否拒絕原假設(原假設是沒有異方差)。如果存在異方差,那麽它雖然不會影(yǐng)響回歸系數的(de)無偏性,但是會影(yǐng)響 standard errors,因此應使用(yòng) heteroskedasticity-robust standard errors。


5 僞回歸


5.1 I(1) 序列


從上面的(de)論述可(kě)知,大(dà)樣本下(xià) OLS 滿足良好漸近性質的(de)關鍵條件是時(shí)間序列滿足平穩性和(hé)弱相關性。對(duì)于有些時(shí)間序列,其前後滿足強相關性(比如股票(piào)價格),這(zhè)時(shí)就應該進行必要的(de)處理(lǐ)。不滿足弱相關性的(de)一個(gè)例子正是随機遊走(Random Walk):  ,其中  是 iid 的(de)白噪聲。從這(zhè)個(gè)模型中可(kě)以推出  ,因此有  , 這(zhè)意味著(zhe)不管  多(duō)大(dà),0 時(shí)刻的(de)取值  都對(duì)  有著(zhe)無法磨滅的(de)影(yǐng)響。更進一步的(de)可(kě)以推出:


  


随機遊走是一個(gè)特殊的(de) unit root process。更一般的(de)情況中,   中的(de)  可(kě)以不滿足 iid,而是某個(gè) AR 或者 MA 過程。在這(zhè)種更一般的(de)情況下(xià),random walk 的(de)一些性質不再滿足。然而不變的(de)是,  序列之間的(de)相互影(yǐng)響依然是不能随時(shí)間間隔的(de)增大(dà)而消除,因此它依然不是平穩的(de)。Unit root process 的(de)單整階數爲 1,因此是一個(gè)  序列。而一個(gè)平穩序列的(de)單整階數應是 0,又稱爲  序列。


滿足弱相關性的(de)時(shí)間序列是  。如果解釋變量和(hé)被解釋變量都是  ,則可(kě)以直接進行時(shí)序回歸分(fēn)析。而對(duì)于  的(de)序列,通(tōng)常的(de)做(zuò)法是通(tōng)過一階差分(fēn),把它轉換成  的(de)序列,然後再進行回歸分(fēn)析。


5.2 僞回歸


如果貿然對(duì)兩個(gè)  序列進行時(shí)序回歸分(fēn)析,則有可(kě)能落入僞回歸(spurious regression)的(de)陷阱。僞回歸指的(de)是自變量和(hé)因變量之間本來(lái)沒有任何關系,但由于某種原因,回歸分(fēn)析卻顯示出它們之間存在統計意義上的(de)相關性,讓人(rén)誤以爲兩者之間有關聯,這(zhè)種相關性稱作僞關系(spurious relationship)。


來(lái)看下(xià)面這(zhè)個(gè)例子。假設  和(hé)  是兩個(gè)從零開始的(de)随機遊走:


  


其中  和(hé)  是兩個(gè)獨立的(de)白噪聲,滿足  。由上述定義可(kě)知,  和(hé)  兩個(gè)時(shí)間序列也(yě)是相互獨立的(de)。然而,如果我們考慮回歸模型  會怎樣呢(ne)?以下(xià)給出了(le)一個(gè)随機的(de)例子。從  和(hé)  的(de)時(shí)間序列圖中不難看出,兩者似乎高(gāo)度相關,而回歸系數   的(de) t-statistic 更是超過 13。


圖片


然而事實是,by design 這(zhè)兩個(gè)序列之間是相互獨立的(de)。那麽,下(xià)面這(zhè)種解釋有沒有可(kě)能:“由于噪聲,這(zhè)兩個(gè)序列之間相互獨立或許是假設檢驗中的(de)小概率事件”?如果這(zhè)個(gè)解釋成立,那麽如果我們進行大(dà)量的(de)随機模拟,并以 2.0 作爲 t-statistic 絕對(duì)值的(de)阈值,那麽應該僅在 5% 的(de)随機模拟中看到兩者的(de)相關性。不幸的(de)是,模拟結果否決了(le)上述猜想。在模拟的(de) 500 次實驗中,t-statistic 絕對(duì)值超過 2.0 的(de)情況出現比例超過 70%(下(xià)圖展示了(le) t-statistic 絕對(duì)值的(de)分(fēn)布)顯然,回歸模型所發現的(de)二者之間的(de)關系是虛假的(de)。這(zhè)個(gè)現象最初被 Granger and Newbold (1974) 發現,他(tā)們将其稱爲僞回歸。


圖片


當我們用(yòng)  對(duì)  回歸時(shí),究竟發生了(le)什(shén)麽呢(ne)?對(duì)于模型  而言,在原假設  下(xià)有  。由于  是從零開始的(de)随機遊走,因此原假設成立意味著(zhe)  且  。換言之,在原假設下(xià),模型中的(de) error term  是一個(gè)随機遊走。顯然無論有限樣本還(hái)是大(dà)樣本下(xià),這(zhè)個(gè) error 都不滿足 Gauss-Markov 假設。


這(zhè)個(gè)例子說明(míng),在進行回歸分(fēn)析之前,應該首先檢驗時(shí)間序列是否滿足平穩性。爲此,可(kě)以考慮使用(yòng) Augmented Dickey-Fuller test。對(duì)于給定的(de)時(shí)間序列,例如  ,該 test 考察如下(xià)回歸模型:


  


在上式中,如果時(shí)間序列  存在單位根,則  。ADF 檢驗的(de)原假設是  、備擇假設是  。如果  滿足平穩性,則 ADF 檢驗統計量應顯著爲負。因此隻有當該統計量小于給定顯著性水(shuǐ)平的(de)阈值(阈值是負數)時(shí),才能在對(duì)應的(de)置信水(shuǐ)平下(xià)拒絕原假設、接受備擇假設(所以可(kě)以理(lǐ)解爲,檢驗統計量越負越好)。那麽,僞回歸現象的(de)存在是否意味著(zhe)兩個(gè)  時(shí)間序列之間注定無法進行回歸分(fēn)析呢(ne)?答(dá)案也(yě)是否定的(de)。這(zhè)就要請出下(xià)一個(gè)話(huà)題:協整。


Cointegration


6.1 Cointegration


考慮兩個(gè)  時(shí)間序列  和(hé)  。有前面的(de)論述可(kě)知,一般情況下(xià),這(zhè)兩個(gè)序列的(de)線性組合依然是一個(gè)  過程、不滿足平穩性。然而,如果存在某個(gè)系數,使得(de)  對(duì)  回歸的(de) error 是一個(gè)  過程(即滿足平穩性),那麽就稱  和(hé)  協整(cointegration)。


當協整發生時(shí),這(zhè)兩個(gè)序列的(de)随機過程能夠抵消掉的(de)原因是它們共享某個(gè)共同的(de)長(cháng)期趨勢(共同的(de)因素)。在這(zhè)種情況下(xià),兩個(gè)序列才可(kě)能發生協整、它們的(de)線性組合才能滿足平穩性。協整關系的(de)重要性在于它允許人(rén)們使用(yòng)非平穩數據進行回歸分(fēn)析,同時(shí)獲得(de)有意義的(de)經濟解釋和(hé)預測。當我們有兩個(gè)序列時(shí),可(kě)以通(tōng)過 Engle-Granger 兩步檢驗來(lái)檢驗協整;而當研究對(duì)象爲多(duō)個(gè)時(shí)間序列時(shí),則可(kě)以使用(yòng) Johansen 檢驗。爲了(le)簡單起見,以下(xià)通(tōng)過一個(gè)例子介紹 Engle-Granger test。


6.2 Engle-Granger Test


對(duì)于兩個(gè)  序列  和(hé)  ,Engle-Granger 兩步法十分(fēn)簡單直觀:


  • Step 1:用(yòng)  對(duì)  回歸:  ,并得(de)到殘差  。

  • Step 2:對(duì)殘差  進行“ADF”檢驗,考察其是否滿足平穩性。這(zhè)裏之所以在 ADF 上加引号,是因爲原始 ADF 是檢驗單一時(shí)間序列是否滿足平穩性的(de),而此處我們的(de)  是兩個(gè)  回歸的(de)殘差,因此在檢驗  時(shí)使用(yòng)的(de)檢驗統計量的(de) critical values 和(hé)一般的(de) ADF 檢驗稍有區(qū)别。爲此,應該使用(yòng) Phillips and Ouliaris (1990) 給出的(de) critical values。

下(xià)面就用(yòng)一個(gè)例子來(lái)介紹一下(xià)。我們研究的(de)對(duì)象是 AUDUSD 和(hé) NZDUSD 這(zhè)兩個(gè) forex rates,前者是澳大(dà)利亞元對(duì)美(měi)元的(de)彙率,後者是是新西蘭元對(duì)美(měi)元的(de)彙率。首先,我們使用(yòng) ADF 檢驗來(lái)确認這(zhè)兩個(gè)時(shí)間序列本身都是  。結果(下(xià)表)顯示,對(duì)于這(zhè)二者,它們的(de)原始序列都不滿足平穩性,而一階差分(fēn)均滿足平穩性,因此它們都是  。


圖片


接下(xià)來(lái),進行 Engle-Granger Test。結果顯示,回歸模型的(de)殘差的(de) ADF 檢驗拒絕了(le)原假設(p-value = 0.018),意味著(zhe)殘差滿足平穩性,因此 AUDUSD 和(hé) NZDUSD 協整。通(tōng)過繪制殘差(下(xià)圖),我們也(yě)确實可(kě)以看到,它在一定的(de)區(qū)間内平穩運行,呈現出均值回複的(de)特性。


圖片


利用(yòng)殘差的(de)均值回複特性,我們可(kě)以構造這(zhè)兩個(gè)彙率的(de)配對(duì)交易策略。其大(dà)體思路是:


  • 當殘差的(de) Z-Score 大(dà)于上阈值時(shí),建立做(zuò)空頭寸,做(zuò)空殘差。

  • 當殘差的(de) Z-Score 小于下(xià)阈值時(shí),建立做(zuò)多(duō)頭寸,做(zuò)多(duō)殘差。

  • 當殘差的(de) Z-Score 回到均值時(shí),平倉。


以下(xià)給出了(le) 1 作爲阈值時(shí)的(de)回測結果。


圖片


最後想要強調的(de)是,這(zhè)個(gè)例子僅僅是爲了(le)說明(míng)協整在金融市場(chǎng)實際應用(yòng)中的(de)作用(yòng)。需要特别注意的(de)是,在上面的(de)回測中,構造協整模型的(de)實證區(qū)間和(hé)回測的(de)實證區(qū)間是一樣的(de),因此對(duì)于構造策略而言,在估計回歸系數  時(shí)存在 look-ahead bias。在實際應用(yòng)中,應使用(yòng)滾動窗(chuāng)口和(hé) PIT 數據來(lái)進行樣本外回測。


6.3 統計推斷


即便暫時(shí)把 look-ahead bias 的(de)問題放到一邊,在上面構造協整的(de)例子中,另一個(gè)需要我們關心的(de)問題是  的(de)統計推斷問題(因爲我們是要依賴它構造殘差/價差,從而構造交易策略)。一般來(lái)說,即使  是均值爲零的(de)  ,但它通(tōng)常有自相關性(  和(hé)  之間的(de)協整并不限制  的(de)序列相關性)。盡管這(zhè)并不影(yǐng)響估計量的(de)一緻性,但由于  和(hé)  是  ,因此常見的(de)統計推斷過程并不适用(yòng),即 OLS 不是漸近正态分(fēn)布的(de),  的(de) t-statistic 也(yě)并不滿足近似的(de) t 分(fēn)布。


爲了(le)解決這(zhè)個(gè)問題,我們可(kě)以通(tōng)過一定的(de)變換,構造新的(de) error term。考慮到  是  ,嚴格外生性要求 error 和(hé)  不相關(  )。因此,我們可(kě)以圍繞  把  寫成如下(xià)形式:


  


其中前後個(gè)考慮兩期僅僅是示例。通(tōng)過上述構造,我們希望新的(de) error  與式中的(de)每個(gè)  都不相關。此時(shí),原始的(de)回歸模型變爲:


  


上述變換的(de)核心是,保證了(le)  的(de)回歸系數依然是  ,且通(tōng)過構造  在變換之後的(de)模型中現在是嚴格外生的(de),因此可(kě)以用(yòng)常規方法對(duì)  進行統計推斷。因此,通(tōng)過添加  解決了(le)  和(hé)  之間的(de)任何同時(shí)内生性問題,而基于上述模型得(de)到的(de)估計量也(yě)被稱爲 leads and lags estimator。在實際中,需要包含多(duō)少 leads 和(hé) lags 項是一個(gè) empirical choice:每當多(duō)添加一項,我們就會失去一個(gè)觀測樣本。很多(duō)時(shí)候,這(zhè)個(gè)代價這(zhè)對(duì)于時(shí)間序列分(fēn)析而言也(yě)許非常昂貴。最後,在新的(de)回歸模型中,error  依然可(kě)能存在自相關性。爲此,可(kě)以考慮本文第 3 節介紹的(de)方法進行處理(lǐ)或修正。


7 Error Correction Model


構築在協整關系之上,誤差修正模型(Error Correction Model,ECM)是處理(lǐ)非平穩序列的(de)另一個(gè)重要工具。協整分(fēn)析揭示了(le)多(duō)個(gè)時(shí)間序列之間的(de)長(cháng)期均衡關系,而誤差修正模型則希望在此基礎上同時(shí)捕捉短期動态和(hé)長(cháng)期均衡之間的(de)平衡。


爲此,我們從短期動态模型出發:


  


其中  和(hé)  分(fēn)别表示  和(hé)  的(de)一階差分(fēn),捕捉了(le)它們的(de)短期波動。當然,我們也(yě)可(kě)以不考慮滞後項,從而進一步簡化(huà)該模型:


  


然而,這(zhè)個(gè)模型沒有考慮二者之間的(de)長(cháng)期均衡關系。如果它們之間滿足協整,那麽可(kě)以在上述模型中引入  ,表示長(cháng)期均衡關系的(de)偏離,并得(de)到誤差修正模型(注意新引入的(de) term 的(de)時(shí)間 index 是  ):


  


将  帶入,模型最終可(kě)以寫爲:


  


其中  是誤差修正項的(de)系數。在該模型中,  刻畫(huà)了(le)  對(duì)  的(de)短期影(yǐng)響,即當期  的(de)變化(huà)對(duì)當期  的(de)變化(huà)的(de)影(yǐng)響;  則刻畫(huà)了(le)系統對(duì)長(cháng)期均衡偏離的(de)調整過程。當  時(shí),系統會朝向均衡狀态調整。換句話(huà)說,如果  和(hé)  偏離了(le)長(cháng)期均衡關系,那麽該項會促使  在未來(lái)逐步回歸均衡狀态,調整速度由  決定。最後,如果我們考察 AUDUSD 和(hé) NZDUSD 之間的(de) ECM 模型結果,則可(kě)以看到長(cháng)期均衡關系的(de)回歸系數  确實小于零,且高(gāo)度顯著。


8 結語


本文是對(duì)《寫給你的(de)時(shí)間序列分(fēn)析》系列的(de)一個(gè)必要補充。從本文 cover 的(de)内容可(kě)知,時(shí)間序列回歸分(fēn)析并非是簡單地将兩個(gè)序列進行回歸處理(lǐ),而是一個(gè)需要精心設計和(hé)仔細考量的(de)過程。每一步都涉及到對(duì)數據特性的(de)深入理(lǐ)解和(hé)對(duì)模型假設的(de)嚴格檢驗。從平穩性檢驗到誤差修正模型的(de)構建,每個(gè)環節都至關重要。隻有在确保數據滿足必要條件的(de)前提下(xià),才能進行可(kě)靠的(de)回歸分(fēn)析,避免僞回歸和(hé)誤導性的(de)結論。唯有通(tōng)過系統的(de)分(fēn)析方法和(hé)嚴謹的(de)統計推斷,我們才有望揭示時(shí)間序列數據中的(de)真實關系。



參考文獻

  • Granger, C. W. J. and P. Newbold (1974). Spurious regressions in econometrics. Journal of Econometrics 2(2), 111–120.

  • Wooldridge, J. M. (2012). Introductory Econometrics: A Modern Approach (5th Ed.). South-Western, Cengage Learning.



免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。