貝葉斯統計

發布時(shí)間:2017-03-03  |   來(lái)源: 川總寫量化(huà)

作者:石川

摘要:貝葉斯統計在生活和(hé)量化(huà)投資中都有著(zhe)廣泛的(de)應用(yòng)。本文就爲你打開貝葉斯統計的(de)大(dà)門。


1 概率論和(hé)統計學


簡單來(lái)說,概率論和(hé)統計學解決的(de)問題是互逆的(de)。假設有一個(gè)具有不确定性的(de)過程(process),然後這(zhè)個(gè)過程可(kě)以随機的(de)産生不同的(de)結果(outcomes)。則概率論和(hé)統計學的(de)區(qū)别可(kě)以描述爲:


概率論(probability theory)中,我們已知該過程的(de)概率模型,該模型的(de)不确定性由相應的(de)概率分(fēn)布來(lái)描述;概率論要回答(dá)的(de)問題是該過程産生某個(gè)結果的(de)可(kě)能性有多(duō)大(dà)這(zhè)類問題。


統計學(statistics)中,該過程的(de)概率模型對(duì)我們來(lái)說是未知的(de),但是我們有一系列該過程産生的(de)結果的(de)觀測值;我們希望通(tōng)過這(zhè)些觀測值來(lái)推斷出這(zhè)個(gè)過程中的(de)不确定性是什(shén)麽樣的(de)。


總結來(lái)說就是:通(tōng)過已知的(de)概率模型來(lái)精确的(de)計算(suàn)各種結果的(de)可(kě)能性就是概率論;根據觀測的(de)結果來(lái)推斷模型的(de)不确定性就是統計學。


如果上面的(de)描述依然晦澀,請看下(xià)面這(zhè)個(gè)例子。假設桶裏面有 100 個(gè)小球,小球分(fēn)爲白色和(hé)黑(hēi)色。如果已知桶裏面一共有 30 個(gè)白球和(hé) 70 個(gè)黑(hēi)球,想回答(dá)随機從桶中摸出一個(gè)白球(或者黑(hēi)球)的(de)概率是多(duō)少這(zhè)樣的(de)問題,這(zhè)就屬于概率論的(de)範疇。而如果已知通(tōng)過有放回的(de)采樣抽出了(le) 10 個(gè)球并且其中 4 個(gè)白球 6 個(gè)黑(hēi)球,想要推斷的(de)是小桶裏面白球(或者黑(hēi)球)的(de)百分(fēn)比(這(zhè)些對(duì)我們來(lái)說是未知的(de)),這(zhè)就是統計學的(de)範疇。


f1.jpg


對(duì)于概率論來(lái)說,每一個(gè)問題都有唯一的(de)答(dá)案。通(tōng)過相關計算(suàn),總可(kě)以計算(suàn)出我們關心的(de)結果發生的(de)概率。反觀統計學,它更像是一門藝術。因爲要推斷的(de)模型是未知的(de),因此很難說哪種推斷方法就優于另一種方法,或者哪種推斷結果就比其他(tā)結果更加正确。就拿上面的(de)例子來(lái)說,雖然觀測到的(de) 10 個(gè)球中有 4 個(gè)白球和(hé) 6 個(gè)黑(hēi)球,但我們仍不能斷言桶裏白球占 40% 的(de)推斷就一定比桶裏白球占 50% 或者 30% 的(de)推斷更加準确。


2 古典統計學和(hé)貝葉斯統計學


統計學領域中有兩大(dà)學派:古典統計學(classical)和(hé)貝葉斯統計學(Bayesian,以英國數學家托馬斯•貝葉斯命名)。古典統計學又稱爲頻(pín)率論(frequentist)。關于這(zhè)倆大(dà)學派孰優孰劣已有一個(gè)世紀的(de)争論。它們的(de)本質區(qū)别在于對(duì)待未知模型或者參的(de)方法是不同的(de):


古典統計學認爲,未知的(de)模型或者參數是确定的(de),隻不過我們不知道它确切的(de)形式或者取值。


貝葉斯統計學認爲,未知的(de)模型或者參數變量是不确定的(de),但是這(zhè)種不确定性可(kě)以由一個(gè)概率分(fēn)布來(lái)描述


f2.png


古典統計學通(tōng)過進行大(dà)量重複實驗并統計某個(gè)特定結果出現的(de)頻(pín)率作爲對(duì)未知參數的(de)估計。以猜桶中白球的(de)比例爲例,頻(pín)率論者會進行大(dà)量的(de)帶放回的(de)獨立抽取實驗(實驗可(kě)以做(zuò)到天荒地老海枯石爛),然後計算(suàn)所有結果中白球出現的(de)頻(pín)率,以此作爲對(duì)小球中白球比例的(de)推斷。古典統計學的(de)核心在于通(tōng)過大(dà)量的(de)實驗來(lái)消除模型或者參數估計中的(de)不确定性(因爲它假設未知模型或者參數是确定的(de))。


貝葉斯統計學則截然不同。貝葉斯統計學“使用(yòng)概率的(de)方法來(lái)解決統計學問題”。如前所述,貝葉斯統計學認爲未知的(de)模型或者參數是不确定的(de)、符合某個(gè)概率分(fēn)布。特别的(de),我們會首先根據主觀判斷或者過去的(de)經驗,對(duì)這(zhè)個(gè)概率分(fēn)布有一個(gè)猜測,稱爲先驗分(fēn)布(prior distribution);然後根據越來(lái)越多(duō)的(de)觀測值(new data 或者 new evidence)來(lái)修正對(duì)該概率分(fēn)布的(de)猜測,最後得(de)到的(de)概率分(fēn)布稱爲後驗分(fēn)布(posterior distribution)。貝葉斯統計學中的(de)“概率”的(de)概念可(kě)以被解釋爲我們對(duì)未知變量不同取值的(de)信心程度的(de)測度(measure of confidence)。貝葉斯統計不消除未知變量的(de)不确定性,而是通(tōng)過越來(lái)越多(duō)的(de)新的(de)觀測點來(lái)持續更新我們對(duì)于該未知變量不确定性的(de)認知,提高(gāo)我們對(duì)不确定性的(de)判斷的(de)信心。


對(duì)于上面這(zhè)個(gè)例子,假設在觀測值出現之前,我們猜測桶中有 50% 的(de)白球和(hé) 50% 的(de)黑(hēi)球。因此 50% 是我們對(duì)白球比例的(de)先驗信仰(prior belief)。随著(zhe)不斷進行抽取實驗,我們會根據得(de)到的(de)觀測值更新我們的(de)信仰。假設 10 次抽取後得(de)到 4 個(gè)白球和(hé) 6 個(gè)黑(hēi)球,那麽此時(shí)我們對(duì)白球比例的(de)信仰就會從最初的(de) 50% 減少一些,這(zhè)是因爲我們結合新的(de)證據(即觀測的(de) 10 個(gè)球中僅有 40% 是白球)更新了(le)猜測。假設 100 次抽取後得(de)到了(le) 35 個(gè)白球和(hé) 65 個(gè)黑(hēi)球,那麽此時(shí)我們對(duì)白球比例的(de)信仰又會繼續更新。随著(zhe)越來(lái)越多(duō)的(de)觀測值,我們會持續更新猜測,并且對(duì)該猜測的(de)信心程度也(yě)會越來(lái)越高(gāo),即未知變量(在這(zhè)裏是白球比例)後驗分(fēn)布的(de)标準差會越來(lái)越小(後面會通(tōng)過一個(gè)扔硬币的(de)例子說明(míng))。


貝葉斯統計學派被古典統計學派诟病的(de)核心問題是對(duì)于未知變量的(de)先驗分(fēn)布是非常主觀的(de)。顯然,哪怕是一個(gè)最簡單的(de)問題,不同的(de)人(rén)也(yě)會有不同的(de)考慮。比如桶中白球比例這(zhè)個(gè)例子。一個(gè)普通(tōng)人(rén)會同意 50% 是一個(gè)合理(lǐ)的(de)先驗猜測。但是,極端的(de)人(rén)也(yě)許會使用(yòng) 0% 或者 100% 白球作爲他(tā)的(de)先驗猜測。不過,盡管不同人(rén)可(kě)以有不同的(de)先驗分(fēn)布,但是随著(zhe)他(tā)們結合新的(de)觀測點來(lái)更新自己的(de)信仰,我們會發現他(tā)們最終得(de)到的(de)後驗分(fēn)布是會逐漸收斂的(de)。此外,對(duì)很多(duō)生活中的(de)實際問題,使用(yòng)一個(gè)合理(lǐ)的(de)猜測(educated guess)作爲先驗是很有好處的(de)。


f3.png


3 爲什(shén)麽要學習(xí)貝葉斯統計學


貝葉斯統計在生活以及量化(huà)投資中有著(zhe)廣泛的(de)應用(yòng)。從下(xià)面兩個(gè)意義上說,相對(duì)古典統計,貝葉斯統計有明(míng)顯的(de)優勢:


1. 雖然在上面抽小球的(de)例子中我們進行大(dà)量重複性的(de)實驗并計算(suàn)白球的(de)頻(pín)率(古典統計學手段),但對(duì)于是在生活中的(de)很多(duō)實際問題,大(dà)量重複實驗是不現實的(de)。比如我們想推斷川普當選美(měi)國總統的(de)概率。顯然,我們沒法讓美(měi)國人(rén)進行成千上萬次不同的(de)投票(piào)選舉,然後計算(suàn)川普獲勝的(de)頻(pín)率。即便是通(tōng)過民意調查的(de)方式,進行成千上萬次也(yě)是不切實際的(de)(簡單從成本的(de)角度考慮就不可(kě)能)。因此,對(duì)于這(zhè)個(gè)問題我們隻能有非常有限的(de)幾次民意調查結果。我們當然可(kě)以隻通(tōng)過這(zhè)些有限的(de)結果利用(yòng)古典統計學對(duì)川普獲勝的(de)概率做(zuò)出估計,但是可(kě)以想象的(de)是這(zhè)個(gè)估計的(de)誤差會非常大(dà)。而貝葉斯統計則提供了(le)新的(de)視角。


2. 合理(lǐ)的(de)先驗分(fēn)布對(duì)未知量的(de)估計是非常有益的(de)。對(duì)生活中很多(duō)實際問題的(de)判斷都和(hé)人(rén)們的(de)學識、經驗、見識有關。在這(zhè)種情況下(xià),如果我們把有限和(hé)觀測數據和(hé)根據知識和(hé)經驗得(de)到的(de)先驗結合起來(lái),會得(de)到對(duì)未知量更好的(de)推斷。就拿對(duì)股票(piào)收益率的(de)預測這(zhè)件事來(lái)說,我們之前的(de)文章(zhāng)《收益率預測的(de)貝葉斯收縮》中提到了(le)使用(yòng)貝葉斯統計可(kě)以得(de)到更小的(de)估計誤差。而高(gāo)盛著名的(de) Black–Litterman 收益率模型就是将從市場(chǎng)均衡假設推出的(de)資産收益率作爲先驗,将基金經理(lǐ)的(de)主觀判斷作爲觀測值,通(tōng)過把它們兩者結合來(lái)得(de)到後驗判斷。它的(de)本質也(yě)是貝葉斯統計。


可(kě)見,掌握貝葉斯統計并且使用(yòng)它做(zuò)推斷,即貝葉斯推斷(Bayesian inference),十分(fēn)重要。貝葉斯統計框架的(de)核心無疑就是貝葉斯定理(lǐ)(Bayes’ rule)


4 貝葉斯定理(lǐ)


本節簡要介紹貝葉斯定理(lǐ),它是貝葉斯推斷的(de)核心。貝葉斯定理(lǐ)的(de)推導始于條件概率。條件概率可(kě)以定義爲:在事件 B 發生的(de)前提下(xià),事件 A 發生的(de)概率。數學上用(yòng) P(A|B) 來(lái)表示這(zhè)個(gè)條件概率。生活中條件概率屢見不鮮。比如在沒有趕上 8 點這(zhè)趟地鐵,上班遲到的(de)概率是多(duō)少?


條件概率 P(A|B) 的(de)數學定義爲:


image.png


這(zhè)個(gè)公式的(de)白話(huà)解釋爲:“當 B 發生前提下(xià) A 發生的(de)概率”等于“A 和(hé) B 同時(shí)發生的(de)概率”除以“B 發生的(de)概率”。用(yòng)我們的(de)例子來(lái)說,那就是“在沒有趕上 8 點這(zhè)趟地鐵的(de)前提下(xià),上班遲到的(de)概率”等于“沒趕上 8 點這(zhè)趟地鐵且上班遲到的(de)概率”除以“沒趕上 8 點這(zhè)趟地鐵的(de)概率”。将這(zhè)個(gè)式子左右兩邊同時(shí)乘以 P(B) 得(de)到 P(B)P(A|B) = P(A∩B)。


類似的(de),我們也(yě)可(kě)以求出 P(B|A),即在 A 發生的(de)前提下(xià),B 發生的(de)概率是多(duō)少。在上面例子中,這(zhè)對(duì)應著(zhe)“在上班遲到的(de)前提下(xià),沒有趕上 8 點這(zhè)趟地鐵的(de)概率是多(duō)少”?(上班遲到的(de)原因可(kě)能很多(duō),比如沒趕上這(zhè)趟地鐵是一個(gè),又比如趕上地鐵了(le)但是下(xià)地鐵後去辦公樓咖啡館裏耽擱了(le) 10 分(fēn)鐘(zhōng)也(yě)是一個(gè),或者因爲早上發燒先去醫院了(le)等等。)根據定義:


image.png


同樣,兩邊同時(shí)乘以 P(A) (并且由 P(A∩B) = P(B∩A))得(de)到 P(A)P(B|A) = P(A∩B)。由此可(kě)知 P(B)P(A|B) = P(A)P(B|A)。這(zhè)個(gè)結果也(yě)可(kě)以寫作如下(xià)形式,即大(dà)名鼎鼎的(de)貝葉斯定理(lǐ)


image.png


5 貝葉斯推斷


由貝葉斯定理(lǐ)可(kě)以順其自然得(de)到貝葉斯推斷。前文提到,貝葉斯統計的(de)核心是通(tōng)過新的(de)觀測數據(或者新的(de)證據)來(lái)不斷的(de)更新我們對(duì)未知量的(de)認知。


考慮一個(gè)假想的(de)例子。假設我們的(de)先驗認知是明(míng)天太陽不會升起(即明(míng)天太陽不會升起的(de)概率爲 1)。然而,實際觀測到的(de)證據是每天太陽都照(zhào)常升起。由此,我們會不斷的(de)修正之前那個(gè)先驗,由此得(de)到的(de)後驗認知是下(xià)一天太陽不會升起的(de)概率越來(lái)越低。通(tōng)過新證據或者數據來(lái)更新認知的(de)過程就是貝葉斯推斷。下(xià)面我們來(lái)正式的(de)描述它。


假設我們有一個(gè)需要估計的(de)未知量 θ,并且針對(duì)該變量有一個(gè)先驗分(fēn)布 P(θ)。令 D 爲一系列觀測值或者證據。我們希望通(tōng)過 D 來(lái)修正對(duì) θ 的(de)分(fēn)布的(de)認知,即 P(θ|D) 是我們感興趣的(de)。由貝葉斯定理(lǐ)可(kě)得(de):


image.png


在貝葉斯推斷的(de)框架下(xià),上面公式中的(de)這(zhè)些概率量都有約定俗成的(de)名字:


P(θ):θ 的(de)先驗分(fēn)布(prior)。它表示在沒有任何觀測值序列 D 時(shí)我們對(duì)于 θ 的(de)不确定性的(de)認知。


P(θ|D):θ 的(de)後驗分(fēn)布(posterior)。它表示在考慮了(le)觀測值序列 D 後,我們對(duì)于θ 的(de)不确定性的(de)改進的(de)認知。


P(D|θ):似然函數(likelihood)。它是當未知變量服從 θ 的(de)前提下(xià),我們觀察到序列 D 的(de)條件概率。


P(D):觀測值或證據(evidence)。這(zhè)是在考慮所有可(kě)能的(de) θ 的(de)分(fēn)布下(xià),所能觀測到序列 D 的(de)非條件概率。


可(kě)見,通(tōng)過使用(yòng)貝葉斯推斷,我們可(kě)以合理(lǐ)的(de)将先驗認知和(hé)實際證據結合在一起,得(de)到一個(gè)更新的(de)後驗認知。此外,貝葉斯推斷框架的(de)強大(dà)之處在于我們可(kě)以叠代的(de)看問題,即在每次有新觀測數據後我們可(kě)以得(de)到一個(gè)新的(de)後驗分(fēn)布,然後把它作爲下(xià)個(gè)新數據出現前的(de)(新的(de))先驗分(fēn)布。換句話(huà)說,在這(zhè)個(gè)過程中我們通(tōng)過反複叠代使用(yòng)貝葉斯定理(lǐ),持續更新對(duì)未知量的(de)分(fēn)布的(de)認知。


6 一個(gè)例子


下(xià)面通(tōng)過一個(gè)具體的(de)例子來(lái)說明(míng)貝葉斯推斷的(de)過程。假設我們有一枚硬币,并且想要推斷出扔硬币時(shí)得(de)到頭像(正面,heads)的(de)概率 P(H) 是多(duō)少。用(yòng) θ 來(lái)表示這(zhè)個(gè)概率。通(tōng)過反複扔這(zhè)枚硬币便可(kě)以得(de)到一個(gè)由正面和(hé)(或)反面結果組成的(de)觀測序列,這(zhè)就是觀測序列 D。


假設在開始扔硬币前,我們對(duì) θ 的(de)分(fēn)布 P(θ) 有如下(xià)先驗猜想:θ 可(kě)以是 0 到 1 範圍内的(de)任何取值,并且均勻分(fēn)布(比如 θ 等于 0 說明(míng)該硬币兩面都不是頭像;θ 等于 1 說明(míng)該硬币兩面都是頭像;θ 等于 0.5 意味著(zhe)該硬币一面頭像一面非頭像,且質地均勻等)。在這(zhè)個(gè)假設下(xià),θ 的(de)先驗概率密度函數爲 0 到 1 之間的(de)一條水(shuǐ)平線(下(xià)圖)。


f4.png


下(xià)面我們開始扔硬币。假設扔了(le)兩次後,得(de)到了(le)兩次頭像。根據貝葉斯推斷(具體數學計算(suàn)略去,下(xià)同),我們得(de)到關于 θ 的(de)更新後的(de)(後驗)概率密度函數如下(xià)圖所示。可(kě)見由于連續看到兩次頭像面的(de)結果,我們開始傾向于認爲 θ 的(de)取值是越接近 1 越有可(kě)能。


f5.png


讓我們繼續實驗。假如我們扔了(le) 10 次後得(de)到 8 次正面,而扔了(le) 20 次後得(de)到了(le) 11 次正面。根據這(zhè)些結果,我們不斷更新 θ 的(de)後驗分(fēn)布(下(xià)圖)。 當 10 次中有 8 次正面時(shí),我們會認爲這(zhè)個(gè)硬币很有可(kě)能是不公平的(de),即正面和(hé)反面出現的(de)概率不同。而當 20 次中出現 11 次正面時(shí),我們的(de)認知會再次根據新的(de)結果得(de)到修正,我們開始認爲這(zhè)個(gè)硬币可(kě)能是公平的(de)了(le)。


f6.png


最後,下(xià)面兩張圖是經過了(le) 50 次(27 次正面)和(hé) 500 次(232 次正面)實驗後的(de) θ 的(de)後驗分(fēn)布。


f7.png


随著(zhe)越來(lái)越多(duō)的(de)新結果的(de)出現,我們對(duì)于 θ 的(de)不确定性的(de)認知越來(lái)越清晰;對(duì)于 θ 的(de)不同取值的(de)信心越來(lái)越高(gāo)。特别的(de),我們越來(lái)越有把握的(de)說 θ 最有可(kě)能的(de)取值是 0.5 附近。這(zhè)體現在 500 次實驗後,θ 的(de)後驗分(fēn)布 P(θ|D) 已經非常狹窄(換句話(huà)說,θ 的(de)取值的(de)标準差越來(lái)越小),且集中在 0.46 附近。假如這(zhè)枚硬币确實是一枚公平的(de)硬币,那麽如果再進行 500 此實驗,會發現 P(θ|D) 會更加狹窄且 θ 的(de)取值一定會集中在 0.5 附近。


這(zhè)個(gè)例子完美(měi)的(de)展示了(le)貝葉斯推斷的(de)強大(dà)。我們一開始對(duì)未知量 θ 的(de)猜測有非常大(dà)的(de)不确定性(先驗是 0 到 1 的(de)均勻分(fēn)布)。随著(zhe)越來(lái)越多(duō)的(de)觀測值(500 個(gè)實驗結果)的(de)出現,通(tōng)過叠代使用(yòng)貝葉斯定理(lǐ),逐步細化(huà)、完善我們對(duì) θ 的(de)不确定性的(de)認知,最終得(de)到了(le)關于 θ 的(de)不确定性的(de)非常自信的(de)後驗分(fēn)布(即 θ 的(de)分(fēn)布以 0.5 爲中心,标準差非常小,它最有可(kě)能的(de)取值就是 0.5)。


無疑,貝葉斯統計是一個(gè)強大(dà)的(de)工具。當然,不熟悉它的(de)人(rén)卻對(duì)其敬而遠(yuǎn)之。下(xià)面是網上關于貝葉斯統計的(de)一個(gè)笑(xiào)話(huà)。它雖然透著(zhe)作者的(de)“無知”,但可(kě)能卻代表著(zhe)很多(duō)吃(chī)瓜群衆對(duì)貝葉斯統計的(de)看法,以及貝葉斯統計學派的(de)自嘲:


A Bayesian is one who, vaguely expecting a horse, and catching a glimpse of a donkey, strongly believes he has seen a mule.



免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。