量化(huà)選股 101
發布時(shí)間:2016-09-27 | 來(lái)源: 川總寫量化(huà)
作者:石川
摘要:本文介紹基礎量化(huà)選股模型。
1 Alpha 收益率
一般認爲股票(piào)的(de)收益率分(fēn)爲 alpha 和(hé) beta 兩個(gè)部分(fēn)。每支股票(piào)的(de) beta 收益率來(lái)自市場(chǎng),而 alpha 部分(fēn)則是它的(de)超額收益率。買股票(piào)就是買公司,每個(gè)基金經理(lǐ)都在努力尋求有真正 alpha 收益率的(de)優秀股票(piào)。大(dà)型的(de)公募基金和(hé)券商有足夠的(de)人(rén)力和(hé)财力來(lái)組建自己的(de)行業專家團隊,還(hái)有很多(duō)基金經理(lǐ)絞盡腦(nǎo)汁成爲上市公司董秘肚子裏的(de)蛔蟲,以希望能挖掘優秀的(de)個(gè)股。但小型的(de)私募或者資管公司如果沒有能力來(lái)構建團隊呢(ne),量化(huà)選股就成爲一個(gè)低成本的(de)必然選擇。本文介紹基本量化(huà)選股方法。
2 量化(huà)選股模型
量化(huà)選股的(de)核心是找到能挖掘出股票(piào)超額收益率的(de)選股因子(因此這(zhè)種方法稱爲多(duō)因子選股),這(zhè)些因子可(kě)以是基本面的(de)财務因子或者是技術面的(de)因子;黑(hēi)貓白貓,抓到耗子就是好貓。确定有效因子以後,用(yòng)這(zhè)些因子給每個(gè)股票(piào)打分(fēn),選出得(de)分(fēn)高(gāo)的(de)那些股票(piào)進行投資。選股模型每隔一段時(shí)間就會重新運行一次,以确定新的(de)股票(piào)池子。這(zhè)麽做(zuò)的(de)原因主要有兩個(gè):
1. 不管是财務因子還(hái)是技術因子,任何一個(gè)因子都很難持續有效。因此必須定期對(duì)因子的(de)選股小姑進行評估,剔除逐漸失效的(de)因子,選入新的(de)有效的(de)因子。
2. 股模型中用(yòng)到了(le)大(dà)量的(de)财務因子,因此當上市公司披露新的(de)财報時(shí),需根據新的(de)因子數據重新運行。
基于上述原因,量化(huà)選股模型一般在公司披露财報的(de)時(shí)點更新股票(piào)池子。量化(huà)選股模型的(de)流程圖如下(xià)圖所示。下(xià)面一一簡要說明(míng)。
2.1 确定備選因子
從大(dà)類上說,因子主要包括基本面和(hé)技術面兩類。基本面因子是和(hé)上市公司财務相關的(de)因子,又可(kě)以細分(fēn)爲盈利因子(如 ROE、ROA 等)、估值因子(如 PE、PB 等)、規模因子等;技術面因子主要是和(hé)股票(piào)量價相關的(de)因子,可(kě)以分(fēn)爲波動類、動量類和(hé)反轉類。除了(le)這(zhè)兩類主要因子外,還(hái)可(kě)以考慮其他(tā)一些因子,包括券商評級、市場(chǎng)情緒等。
2.2 計算(suàn)每個(gè)因子的(de)選股能力
計算(suàn)每個(gè)因子的(de)選股能力是量化(huà)選股模型的(de)核心。我們以 ROE 爲例說明(míng)這(zhè)個(gè)過程。
第一步,因子預處理(lǐ):首先對(duì) ROE 因子進行預處理(lǐ),這(zhè)裏可(kě)以去掉一些 ROE 取異常值(極大(dà)或極小值)的(de)那些股票(piào),它們可(kě)能對(duì)選股造成幹擾;另外,可(kě)以對(duì)剩餘股票(piào)的(de) ROE 進行歸一化(huà)處理(lǐ)。
第二步,将股票(piào)排序:預處理(lǐ)之後,按照(zhào)因子的(de)業務邏輯給所有個(gè)股排序。由于 ROE 是盈利因子,因此其業務邏輯是 ROE 越大(dà),上市公司的(de)價值應該越好,其股票(piào)的(de)超額收益率就應該越高(gāo)。因此,按照(zhào) ROE 的(de)大(dà)小給個(gè)股排序。
第三步,構造投資組合:排序後,選出排名前 1/5 的(de)股票(piào)做(zuò)多(duō),選出排名後 1/5 的(de)股票(piào)做(zuò)空(假設可(kě)以做(zuò)空),這(zhè)就是我們當期的(de)投資組合。注意,你當然也(yě)可(kě)以選前後 1/10,而非 1/5。
第四步,計算(suàn)投資組合收益率:計算(suàn)回測區(qū)間内内該因子的(de)選股效果。在實證中,随著(zhe)财報數據的(de)逐步披露,我們會得(de)到新的(de) ROE 數據。每次得(de)到新的(de) ROE,重新對(duì)股票(piào)排序并構建當期的(de)投資組合。這(zhè)也(yě)被稱爲投資組合再平衡。
第五步,檢驗收益率:檢驗收益率均值是否顯著大(dà)于零,以此作爲評價因子的(de)基準。
2.3 選出最好的(de) n 個(gè)因子并賦權
由于備選的(de)因子可(kě)以有上百個(gè),因此我們必須擇優選出 n 個(gè)有效的(de)因子。這(zhè)裏主要有兩個(gè)方法:
1. 設定因子選股能力阈值,如果一個(gè)因子的(de)選股能力高(gāo)于該阈值則選爲有效因子,因子的(de)個(gè)數 n 不固定。
2. 設定固定的(de)因子個(gè)數 n(n 一般取 10 到 20 個(gè)之間)。将所有因子按其選股能力從高(gāo)到低排序,選出前 n 個(gè)因子作爲有效因子。
選出 n 個(gè)因子後,爲這(zhè)些因子賦權,以便最後一步中給個(gè)股打分(fēn)。在賦權之前,值得(de)一提的(de)是,選出的(de) n 個(gè)因子之間可(kě)能存在多(duō)重共線性。換句話(huà)說,有些因子之間可(kě)能存在很高(gāo)的(de)相關性,這(zhè)對(duì)于選股是不利的(de),應該給予考慮。(我們将在第 4 節說明(míng)多(duō)重共線性的(de)缺點。)賦權有以下(xià)兩種常規方法:
1. 等權,所有優選出來(lái)的(de)因子一視同仁;因此每個(gè)因子的(de)權重是 1 或者 1/n。
2. 正比于每個(gè)因子的(de)選股能力賦權;因此每個(gè)因子的(de)權重等于“該因子的(de)選股能力”除以“所有因子中最大(dà)的(de)選股能力”。
2.4 爲股票(piào)打分(fēn)
爲股票(piào)打分(fēn)分(fēn)爲兩步。第一步使用(yòng)每個(gè)因子對(duì)每支個(gè)股獨立打分(fēn),即用(yòng)選出的(de) n 個(gè)因子爲個(gè)股打分(fēn)。對(duì)于每一個(gè)因子,按其業務邏輯對(duì)個(gè)股排序,并打分(fēn)如下(xià):最好的(de) 10% 的(de)股票(piào)得(de) 10 分(fēn),次好的(de) 10% 的(de)股票(piào)的(de) 9 分(fēn),以此類推,最差的(de) 10% 的(de)股票(piào)得(de) 1 分(fēn)。第二步爲計算(suàn)每支股票(piào)的(de)總分(fēn),即用(yòng)每支股票(piào)在每個(gè)因子上的(de)得(de)分(fēn)乘以該因子的(de)權重就得(de)到這(zhè)支股票(piào)在該因子上的(de)得(de)分(fēn)。将該股票(piào)在所有 n 個(gè)因子上的(de)得(de)分(fēn)相加就得(de)到該股票(piào)的(de)總分(fēn)。最終,按總分(fēn)對(duì)所有股票(piào)排序,然後選擇排名最高(gāo)的(de) m 支股票(piào)作爲最終的(de)量化(huà)選股結果。同樣,m 的(de)确定可(kě)以有兩種方法:
1. 設定優秀股票(piào)得(de)分(fēn)阈值,如果一個(gè)股票(piào)的(de)總分(fēn)高(gāo)于該阈值則入選,因此 m 不固定。如果阈值選取的(de)不好,那麽可(kě)能出現選出來(lái)的(de)股票(piào)個(gè)數過少甚至無法選出股票(piào)的(de)情況。我們會在後面說明(míng),這(zhè)也(yě)不一定完全是缺點。
2. 設定固定的(de)股票(piào)個(gè)數 m(考慮到分(fēn)散個(gè)股風險,m 一般取 50 到 100 之間)。将所有股票(piào)按其總分(fēn)從高(gāo)到低排序,選出前 m 個(gè)股票(piào)。
因爲在現實中無法做(zuò)空個(gè)股,因此在實際操作中,投資者可(kě)以買入選股模型優選出的(de) m 支股票(piào),并持有到下(xià)一次選股模型重新選擇。
3 問題和(hé)討(tǎo)論
上述量化(huà)選股模型存在以下(xià)幾個(gè)問題:
1. 僅僅使用(yòng)了(le)有限個(gè)選股因子:無論是固定因子個(gè)數或者使用(yòng)因子選股能力阈值,最終使用(yòng)的(de)都是有限的(de) n 個(gè)因子,從 n+1 之後的(de)因子就被舍棄了(le)。因此,剩餘因子的(de)選股作用(yòng)不作考慮,造成模型設定偏誤。
2. 假設因子間的(de)作用(yòng)是獨立的(de):模型在選擇因子時(shí),逐一獨立地考慮每個(gè)因子,完全忽視因子之間的(de)非線性關系。這(zhè)也(yě)是選股模型的(de)局限性之一。
3. 因子可(kě)能存在多(duō)重共線性(即獨立性的(de)假設不成立):如果兩個(gè)或多(duō)個(gè)優選出來(lái)的(de)因子有很高(gāo)的(de)線性相關性,則它們的(de)效果相似。如果不作處理(lǐ)而把它們當做(zuò)獨立的(de)因子,則會加強選股在這(zhè)類因子上的(de)偏重程度,造成偏差。因此必須要檢驗并剔除多(duō)重共線性,确保最終選出的(de)因子之間是相互獨立的(de)。
4. 小市值高(gāo) beta 股傾向:衆所周知,由于高(gāo) beta 股承擔了(le)更高(gāo)的(de)市場(chǎng)風險,它們有著(zhe)更高(gāo)的(de)收益。在量化(huà)選股模型中,股票(piào)按因子排名,而非按股票(piào)對(duì) beta 修正後的(de)收益率排名,然後按排名前後 1/5 股票(piào)的(de)絕對(duì)收益率對(duì)因子效果評價。因此這(zhè)會造對(duì)成市值類因子選股能力的(de)高(gāo)估,從而選出的(de)股票(piào)大(dà)多(duō)也(yě)都是小市值股票(piào)。
5. 固定的(de)選股個(gè)數:無論市場(chǎng)行情如何,這(zhè)個(gè)選股模型通(tōng)常選擇前 50 到 100 相對(duì)優秀的(de)股票(piào)。但我們知道,當市場(chǎng)很差的(de)時(shí)候,即便得(de)分(fēn)最高(gāo)的(de)那些股票(piào)的(de)分(fēn)值可(kě)能也(yě)會很低、後市走勢也(yě)會随大(dà)盤一樣下(xià)跌。在這(zhè)種情況下(xià),如果仍然偏執的(de)選出 50 到 100 支股票(piào),效果可(kě)想而知。
針對(duì)這(zhè)些問題,可(kě)以考慮以下(xià)幾方面:
1. 綜合考慮多(duō)個(gè)因子,而非獨立篩選單一因子,捕捉因子之間的(de)相互作用(yòng)。
2. 使用(yòng)非線性的(de)有監督學習(xí)算(suàn)法對(duì)股票(piào)進行分(fēn)類,捕捉高(gāo)收益率股票(piào)的(de)特征,進而選股。
3. 用(yòng)選股模型作爲另類擇時(shí)工具。當某期股票(piào)的(de)打分(fēn)都很低的(de)時(shí)候,不一定要刻意的(de)非要選出多(duō)少支股票(piào)。不妨認爲這(zhè)恰恰說明(míng)了(le)市場(chǎng)的(de)弱勢,不應持股。在這(zhè)種情況下(xià),選股模型便成爲了(le)一個(gè)擇時(shí)工具。
4. 提高(gāo)選股模型的(de)使用(yòng)頻(pín)率:雖然财務因子在财報披露時(shí)才能更新,但技術類或者其他(tā)類因子叠代的(de)更頻(pín)繁。因此可(kě)以考慮提高(gāo)選股頻(pín)率。當然,選股頻(pín)率提高(gāo)并不意味著(zhe)我們應該提高(gāo)股票(piào)池内股票(piào)的(de)輪動頻(pín)率,仍應該保證每支選出的(de)股票(piào)被持有一段時(shí)間,再被新的(de)股票(piào)替代。因此可(kě)以考慮滾動輪動的(de)方法,比如每一個(gè)月(yuè)重新選股一次,然後每次從投資組合中替換最早進入的(de) 1/3 的(de)股票(piào),這(zhè)樣可(kě)以保證每支股票(piào)至少在投資組合中持有 3 個(gè)月(yuè)。
免責聲明(míng):入市有風險,投資需謹慎。在任何情況下(xià),本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià),本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外,文中圖表均直接或間接來(lái)自于相應論文,僅爲介紹之用(yòng),版權歸原作者和(hé)期刊所有。