機器學習(xí)能否助力風險投資？

發布時(shí)間：2018-04-27 | 來(lái)源: 川總寫量化(huà)

作者：石川

摘要：本文介紹一個(gè)純量化(huà)的(de)風險投資框架。它挑出的(de)創業公司最終成功上市或被收購(gòu)的(de)比例高(gāo)達 60%。

1 引言

近幾年，以機器學習(xí)、特别是深度學習(xí)爲代表的(de)人(rén)工智能（AI）得(de)到了(le)長(cháng)足的(de)發展，機器學習(xí)和(hé)人(rén)工智能也(yě)成爲出現在街(jiē)頭巷尾的(de)高(gāo)頻(pín)詞彙。在《AI 投資言過其實》這(zhè)篇文章(zhāng)中，我們理(lǐ)性的(de)分(fēn)析了(le)機器學習(xí)在二級市場(chǎng)中面對(duì)的(de)困難。今天我們把目光(guāng)放在風險投資（venture capital），看看機器學習(xí)能否在一級市場(chǎng)有所作爲。

寫本文的(de)動機源自我最近讀到的(de)一篇來(lái)自 MIT 的(de)論文 Hunter and Zaman (2017)。該文提出了(le)一個(gè)挑選優秀早期創業公司的(de)量化(huà)分(fēn)析框架，利用(yòng)機器學習(xí)算(suàn)法進行參數估計以及最優投資組合的(de)構建，從而挑出那些最有可(kě)能成功的(de)初創公司（成功的(de)标準是風險投資人(rén)因該公司上市或者被收購(gòu)而退出）。因爲文章(zhāng)很新（2017 年的(de)），而且将機器學習(xí)應用(yòng)于了(le)一個(gè)比較新的(de)場(chǎng)景，讀來(lái)讓人(rén)耳目一新，因此希望把它介紹給關注公衆号的(de)小夥伴，開闊大(dà)家的(de)視野。最重要的(de)是，它在樣本外挑出的(de)創業公司的(de)退出成功率高(gāo)達驚人(rén)的(de) 60%。

這(zhè)篇論文本身非常 technical，因爲一些建模的(de)細節問題，我還(hái)和(hé)作者進行了(le)郵件溝通(tōng)，确保正确的(de)領會了(le)文章(zhāng)傳達的(de)内容。本文将避免涉及太多(duō)大(dà)數學公式（會有少量必要的(de)），但會不吝篇幅、力争把該分(fēn)析框架的(de)重點 —— 包括如何構建特征、如何對(duì)參數建模求解、以及選取什(shén)麽樣的(de)目标函數 —— 解釋清楚。文章(zhāng)最後是關于這(zhè)個(gè)話(huà)題的(de)思考。在介紹這(zhè)個(gè)框架之前，首先來(lái)看看相較于二級市場(chǎng)，風險投資爲什(shén)麽适合機器學習(xí)。

2 風險投資适合機器學習(xí)

2016 年，AlphaGo 以無可(kě)争議(yì)的(de)優勢戰勝了(le)李世石；2017 年它的(de)升級版更是風卷殘雲一般戰勝了(le)以柯潔爲代表的(de)中方各路圍棋高(gāo)手。AI 在圍棋領域的(de)大(dà)獲全勝給了(le)我們很大(dà)的(de)啓發，一個(gè)适合使用(yòng)機器學習(xí)來(lái)解決的(de)問題應該包括以下(xià)三個(gè)性質：

1. 信息邊界明(míng)确，狀态有限；

2. 所有信息完全公開透明(míng)；

3. 有明(míng)确的(de)勝負判斷标準。

我們來(lái)看看風險投資是否滿足這(zhè)三個(gè)條件。根據百度百科，風險投資的(de)定義如下(xià)：

風險投資主要是指向初創企業提供資金支持并取得(de)該公司股份的(de)一種融資方式。風險投資公司爲一專業的(de)投資公司，由一群具有科技及财務相關知識與經驗的(de)人(rén)所組合而成的(de)，經由直接投資被投資公司股權的(de)方式，提供資金給需要資金者（被投資公司）。風投公司的(de)資金大(dà)多(duō)用(yòng)于投資新創事業或是未上市企業，并不以經營被投資公司爲目的(de)，僅是提供資金及專業上的(de)知識與經驗，以協助被投資公司獲取更大(dà)的(de)利潤爲目的(de)，所以是一追求長(cháng)期利潤的(de)高(gāo)風險高(gāo)報酬事業。

在一個(gè)創業公司融資的(de)過程中，通(tōng)常分(fēn)爲種子輪（seed）、A 輪、B 輪、……、F 輪（一般 IPO 前不超過 F 輪）、最後是 IPO。以 IPO 上市退出無疑會帶給投資人(rén)最大(dà)的(de)收益；在上市無望的(de)情況下(xià)，被收購(gòu)也(yě)是一種比較好的(de)退出方式。根據上面的(de)定義，風投的(de)手段是投資有希望的(de)早期創業公司，目的(de)是在退出時(shí)爲投資人(rén)牟取超高(gāo)額收益。

從機器學習(xí)問題的(de)角度來(lái)說，我們需要挖掘初創公司具備的(de)特征與該公司最終能否爲投資人(rén)帶來(lái)了(le)豐厚的(de)報酬之間的(de)關系：Y = f(X)，即回答(dá)“什(shén)麽樣的(de)公司能在未來(lái)成爲獨角獸”這(zhè)個(gè)問題（X 代表特征向量，Y 代表是否帶來(lái)了(le)豐厚回報這(zhè)件事兒(ér)）。訓練這(zhè)個(gè)模型是一個(gè)典型的(de)有監督學習(xí)問題。更重要的(de)是，風險投資比較好的(de)滿足上面提到的(de)三個(gè)條件：

1. 一個(gè)初創公司是否能夠成功大(dà)概率受以下(xià)幾方面的(de)影(yǐng)響：所處的(de)行業是否是風口行業、産品是否有核心競争力、創始團隊是否出色、是否有知名早期投資者扶持。與二級市場(chǎng)投資相比，風險投資問題的(de)邊界相對(duì)明(míng)确且狀态有限。

2. 關于初創公司的(de)團隊和(hé)融資路徑數據，雖然還(hái)遠(yuǎn)非盡善盡美(měi)，但是也(yě)有足夠多(duō)的(de)數據（包括公開的(de)和(hé)可(kě)花錢購(gòu)買的(de)）來(lái)建模。在美(měi)國，初創公司這(zhè)方面數據的(de)可(kě)得(de)性（availability）可(kě)能更高(gāo)一些，但是在國内也(yě)有像鲸準、IT 桔子、鉛筆道這(zhè)樣的(de)關于創業團隊相關數據的(de)提供方。

3. 對(duì)于風投來(lái)說，成功的(de)标準比較明(míng)确，就是成功退出（包括 IPO 退出或者被收購(gòu)退出）。更加發散一步，在建模和(hé)參數估計時(shí)，也(yě)可(kě)以使用(yòng)創業公司完成了(le)哪一輪的(de)融資作爲判别的(de)依據。

需要明(míng)确說明(míng)一下(xià) Hunter and Zaman (2017) 研究的(de)樣本對(duì)象。該文的(de)樣本點僅考慮了(le) 2000 年之後在美(měi)國創辦的(de)、且從數據庫中可(kě)以獲得(de)其可(kě)靠種子輪或 A 輪融資數據的(de)公司；作者關注的(de)是早期融資成功的(de)那些公司中，哪些更有可(kě)能最終脫穎而出。滿足上述條件的(de)公司超過 24,000 個(gè)。以它們爲樣本，該文作者使用(yòng)機器學習(xí)算(suàn)法找到了(le)最有可(kě)能在未來(lái)成功的(de)創業公司應具備的(de)特質。由于樣本中的(de)公司都已完成了(le)種子輪或 A 輪融資，因此早期投資人(rén)的(de)背景和(hé)能力也(yě)成爲對(duì)公司建模的(de)一個(gè)特征維度。下(xià)面就來(lái)說說 Hunter and Zaman (2017) 考慮的(de)特征。

3 特征選擇

上一節提到，創業公司的(de)特征可(kě)以從以下(xià)四個(gè)方面考慮：

1. 行業

2. 産品

3. 領導團隊（包括高(gāo)管和(hé)顧問）

4. 早期投資者（首輪融資）的(de)資源和(hé)經驗

Hunter and Zaman (2017) 在構建特征時(shí)并沒有獨立考慮産品這(zhè)個(gè)維度（也(yě)沒有過多(duō)的(de)加以說明(míng)）。我的(de)猜想可(kě)能是行業已經是産品的(de)一個(gè)有效代理(lǐ)指标，話(huà)句話(huà)說，産品和(hé)行業維度比較相關。另外的(de)原因就是在産品初期，能客觀定量評價它的(de)指标可(kě)能非常有限；産品本身太過細分(fēn)，難以橫向比較。事實上，馬上我們将看到，Hunter and Zaman (2017) 考慮的(de)行業已經非常細緻，這(zhè)也(yě)暗示了(le)無需再進一步考慮産品這(zhè)個(gè)維度了(le)。接下(xià)來(lái)，分(fēn)别從行業、領導團隊以及早期投資者三個(gè)維度介紹特征。這(zhè)些數據來(lái)自 Crunchbase 數據庫以及 Linkedin（領英）。

3.1 行業

Hunter and Zaman (2017) 考慮了(le)如下(xià)這(zhè)些行業。當一個(gè)創業公司所屬于某個(gè)行業時(shí)，它對(duì)應的(de)行業特征取 1，否則爲 0。這(zhè)些行業包括：3D 打印、廣告、分(fēn)析、動畫(huà)、Apps 應用(yòng)程序開發、人(rén)工智能、汽車、無人(rén)駕駛汽車、大(dà)數據、生物(wù)信息、生物(wù)技術、比特币、商業智能、雲計算(suàn)、計算(suàn)機、計算(suàn)機視覺、約會交友、開發者 API、電子商務、線上學習(xí)、教育、線上虛拟體育、時(shí)尚、金融、金融服務、金融科技，健身、GPU、硬件、保健、健康診斷、醫院、保險業、互聯網、物(wù)聯網、iOS 開發、生活方式、物(wù)流、機器學習(xí)、醫療、醫療設備、信息派送、移動通(tōng)訊、納米技術、網絡安全、開放源碼、個(gè)人(rén)健康、寵物(wù)、照(zhào)片共享、可(kě)再生能源、共享出行、機器人(rén)、搜索引擎、社交媒體、社交網絡、軟件、太陽能、體育、交通(tōng)、視頻(pín)遊戲、虛拟現實和(hé)虛拟化(huà)。

3.2 領導團隊

領導團隊籠統的(de)包括高(gāo)管（含創始人(rén)）以及顧問。主要考慮的(de)角度包括，團隊成員(yuán)在過去是否有成功的(de)創業經驗、團隊成員(yuán)之間工作和(hé)教育背景的(de)相似性和(hé)互補性、團隊和(hé)公司所處行業的(de)符合度、以及團隊的(de)平均年齡。下(xià)面分(fēn)别說明(míng)。首先，團隊成員(yuán)過去的(de)創業經驗包括如下(xià)六個(gè)指标。

其次，利用(yòng) Linkedin 的(de)數據，Hunter and Zaman (2017) 抓取了(le)所有領導團隊成員(yuán)在成立/加入本公司之前的(de)工作經曆，并從中計算(suàn)出了(le)如下(xià)代表他(tā)們工作經驗和(hé)背景的(de)特征。

在計算(suàn)工作重合度時(shí)，Hunter and Zaman (2017) 采用(yòng)了(le) Jaccard Index（一種評價兩個(gè)集合中元素相似度的(de)常見方法）。具體方法爲，領導團隊成員(yuán)兩兩配對(duì)，找出他(tā)們之前工作單位的(de)交集和(hé)并集，用(yòng)交集中成員(yuán)的(de)數量除以并集中成員(yuán)的(de)數量求出 Jaccard Index。這(zhè)個(gè)指标的(de)取值在 0 到 1 之間，是工作重合度的(de)度量，越高(gāo)說明(míng)重合度越高(gāo)。對(duì)于每個(gè)配對(duì)，都能得(de)到一個(gè) Jaccard Index，然後計算(suàn)這(zhè)些 Jaccard Index 的(de)均值和(hé)标準差，作爲工作重合度的(de)均值和(hé)标準差。

在領導團隊的(de)教育背景方面，Hunter and Zaman (2017) 考慮了(le)最高(gāo)學曆、是否畢業于名校、以及教育背景重合度等特征。這(zhè)些特征包括：

在名校的(de)表單中，Hunter and Zaman (2017) 僅考慮了(le)美(měi)國的(de)學校（這(zhè)是個(gè)不足？），它們包括：伯克利、布朗大(dà)學、加州理(lǐ)工、卡耐基梅隆、哥(gē)倫比亞、康奈爾、達特茅斯、杜克大(dà)學、哈佛大(dà)學、約翰霍普金斯、麻省理(lǐ)工、西北(běi)大(dà)學、普林(lín)斯頓、斯坦福、芝加哥(gē)大(dà)學、賓夕法尼亞大(dà)學、以及耶魯大(dà)學。在計算(suàn)教育背景重合度時(shí)，同樣采用(yòng)的(de)是 Jaccard Index，不再贅述。

對(duì)于團隊教育背景和(hé)公司所處行業的(de)相似性，Hunter and Zaman (2017) 使用(yòng)了(le) WordNet 詞彙數據庫，計算(suàn)每個(gè)領導團隊成員(yuán)學術專業和(hé)公司所處行業之間的(de)語義相似度（具體方法是 Palmer-Wu 相似度分(fēn)數，見 Wu and Palmer 1994）。得(de)到由每個(gè)成員(yuán)計算(suàn)出的(de)相似度後，取它們的(de)均值作爲團隊教育背景和(hé)公司行業的(de)相似性的(de)度量。最後一個(gè)關于創始團隊的(de)指标是在成立該公司時(shí)，團隊的(de)平均年齡。出于年齡數據不全的(de)考量，作者假設團隊成員(yuán) 18 歲高(gāo)中畢業、22 歲本科畢業，然後根據他(tā)們獲得(de)相應學位的(de)年份和(hé)公司創辦的(de)年份計算(suàn)出目标年齡。

3.3 早期投資者

在早期投資者這(zhè)個(gè)維度，Hunter and Zaman (2017) 著(zhe)實花了(le)一番功夫，使用(yòng)約 83,000 個(gè)公司和(hé) 48,000 個(gè)投資者數據構建了(le)一個(gè)公司和(hé)投資者關系的(de)動态知識圖譜。該圖譜随時(shí)間變化(huà)，對(duì)于任意給定的(de)時(shí)間點，圖譜中的(de)給定節點表示在那個(gè)時(shí)刻某個(gè)投資者投資了(le)某個(gè)公司。通(tōng)過這(zhè)個(gè)圖譜，作者計算(suàn)了(le)兩個(gè)評價早期投資者能力的(de)指标：投資人(rén)的(de)參與度和(hé)投資人(rén)的(de)成功率。

以上介紹了(le)從行業、團隊和(hé)早期投資者這(zhè)三個(gè)維度如何構建創業公司的(de)特征。其中的(de)難點在于數據的(de)抓取、數據的(de)清洗（提高(gāo)數據質量）、以及投資人(rén)和(hé)公司關系圖譜的(de)構建。

4 構建參數模型

有了(le)特征之後，下(xià)一步就是要把特征和(hé)最終模型學習(xí)的(de)目标聯系起來(lái)。對(duì)于選擇優秀的(de)初創公司這(zhè)件事兒(ér)，目标應該是什(shén)麽呢(ne)？我們最終的(de)目标是找到最有希望 IPO 的(de)公司。但是使用(yòng)上述特征直接映射到創業公司能否 IPO （比如使用(yòng)邏輯回歸）太過簡單粗暴了(le)。下(xià)圖顯示了(le)在 Hunter and Zaman (2017) 的(de)樣本中，自 2000 年以來(lái)每年新成立的(de)公司的(de)數量以及每年處于各輪融資的(de)公司的(de)數量（從種子輪、A 輪、一直到被收購(gòu)或者 IPO）。

從上面的(de)右圖可(kě)見，能夠最終 IPO 的(de)獨角獸公司鳳毛麟角。如果僅僅以一個(gè)公司是否 IPO 作爲标簽的(de)話(huà)，這(zhè)樣的(de)樣本數據是非常不均衡的(de)。以此來(lái)訓練分(fēn)類模型的(de)話(huà)，常規的(de)方法會過度的(de)考慮對(duì)非 IPO 公司（占絕大(dà)多(duō)數）分(fēn)類的(de)準确性，而忽視對(duì)少數 IPO 公司的(de)準确性。從直覺上來(lái)看，我們似乎應關心對(duì) IPO 公司預測的(de)準确率，并爲此可(kě)以犧牲對(duì)該類預測的(de)召回率，以及對(duì)非 IPO 公司預測的(de)精度。但是不要忘記，IPO 的(de)回報是非常高(gāo)的(de) —— 不誇張的(de)說，早期 VC 投 100 個(gè)公司，有一個(gè)能夠最終 IPO 就足夠覆蓋其他(tā) 99 個(gè)失敗造成的(de)損失并給他(tā)帶來(lái)豐厚的(de)收益了(le)。這(zhè)樣的(de)收益特性稱爲 top-heavy payoff structure。基于此，我們似乎更應該關注對(duì) IPO 公司分(fēn)類的(de)召回率。無論如何，直接以是否 IPO 作爲标簽來(lái)訓練一個(gè)有監督分(fēn)類問題是過于簡化(huà)了(le)。更合理(lǐ)的(de)建模思路應該是什(shén)麽呢(ne)？從業務上來(lái)考慮，一個(gè)創業公司在成功的(de)曆經各輪融資後，它的(de)估值是在逐步提升的(de)。因此，使用(yòng)創業公司的(de)特征來(lái)對(duì)它估值的(de)變化(huà)建模似乎是一條可(kě)行并合理(lǐ)的(de)路徑。Hunter and Zaman (2017) 正是這(zhè)麽做(zuò)的(de)。

Hunter and Zaman (2017) 假設一個(gè)公司的(de)估值 V(t) 随時(shí)間的(de)變化(huà)可(kě)以由一個(gè)布朗運動描述，該布朗運動的(de)漂移率和(hé)擴散率同樣爲時(shí)間 t 的(de)函數，分(fēn)别爲 μ(t) 和(hé) σ(t)。假設在成立時(shí)，公司的(de)估值爲 0，即 V(0) = 0，随著(zhe)時(shí)間的(de)推移，V(t) 按布朗運動波動。進一步假設不同的(de)融資輪對(duì)應不同的(de)估值阈值，當 V(t) 超過某輪阈值就意味著(zhe)該公司成功完成該輪融資。經過這(zhè)樣的(de)假設，一個(gè)公司每完成新一輪融資所需要的(de)時(shí)間就是這(zhè)個(gè)布朗運動的(de) first passage time（首達時(shí)間）。在進一步的(de)數學假設下(xià)，作者給出了(le)布朗運動首達時(shí)間的(de)概率分(fēn)布函數 f 以及累計分(fēn)布函數 F（公式本身太“感人(rén)”了(le)，因此我們僅僅給出它們的(de)數學符号，具體表達式就不列出來(lái)了(le)，感興趣的(de)讀者請參考原文）：

其中 t_0 表示下(xià)一輪融資的(de)起始時(shí)間、α 表示估值 V(t) 需要達到的(de)阈值。結合創業公司的(de)融資數據，作者觀察到了(le)如下(xià)特征，并将它們用(yòng)于對(duì) μ(t) 和(hé) σ(t) 的(de)建模中：

1. 大(dà)多(duō)數成功的(de)創業公司在早期幾輪融資中的(de)間隔時(shí)間大(dà)緻相同，這(zhè)說明(míng)我們可(kě)以假設在一段時(shí)間内，μ(t) 和(hé) σ(t) 保持不變；

2. 很多(duō)公司雖然在前幾輪融資成功，但是随著(zhe)時(shí)間的(de)推移，越來(lái)越多(duō)的(de)不免走向失敗，無法繼續獲得(de)融資。這(zhè)意味著(zhe)當過一個(gè)公司發展了(le)幾年後，布朗運動的(de)漂移率開始下(xià)降；

3. 随著(zhe)時(shí)間進一步推移，一個(gè)公司能夠成功（IPO 或者被收購(gòu)）的(de)可(kě)能性越來(lái)越低（說明(míng)其估值 V(t) 到達某個(gè)極限，很難繼續增長(cháng)），這(zhè)意味著(zhe) μ(t) 和(hé) σ(t) 将随著(zhe) t 的(de)增大(dà)趨近于 0。

考慮到這(zhè)些特性，Hunter and Zaman (2017) 對(duì) μ(t) 和(hé) σ(t) 的(de)表達式總結如下(xià)：

這(zhè)表明(míng)當 t ≤ ν 時(shí)，μ(t) 和(hé) σ(t) 爲常數；而當 t ＞ ν 時(shí)，μ(t) 和(hé) σ(t) 按指數衰減。ν、τ、μ_0 及 σ_0 需要根據訓練集數據得(de)到，其中 ν 和(hé) τ 的(de)取值對(duì)所有公司相同，而 μ_0 及 σ_0 是每個(gè)公司特有的(de)參數。用(yòng)什(shén)麽來(lái)決定每個(gè)公司的(de) μ_0 和(hé) σ_0 呢(ne)？你一定已經猜到了(le)：公司的(de)特征！如此一來(lái)，公司特征就和(hé)上述布朗運動有機的(de)結合起來(lái)了(le)。對(duì)于 μ_0 和(hé) σ_0，分(fēn)别考慮兩組參數向量 β 和(hé) γ，并令 μ_0 和(hé) σ_0 是特征向量 X 以 β 和(hé) γ 分(fēn)别爲權重的(de)線性組合：

此外，Hunter and Zaman (2017) 認爲外部環境的(de)改變會影(yǐng)響公司特征對(duì)于公司能否成功的(de)重要性。爲此，他(tā)們假設同年成立的(de)公司共享一組 β，但不同年份之間 β 向量是不同的(de)（當然不同年的(de) β 之間是不獨立的(de)）。對(duì)于給定年份，所有在該年成立的(de)創業公司使用(yòng)該年的(de) β 向量和(hé)自身的(de)特征向量 X 來(lái)求解漂移率 μ_0。

最終需要根據訓練集來(lái)估計的(de)參數包括 β 和(hé) γ，以及用(yòng)來(lái)描述漂移率和(hé)擴散率随時(shí)間變化(huà)結構的(de) ν 和(hé) τ。對(duì)于給定的(de)參數，可(kě)以求出描述公司估值變化(huà)的(de)布朗運動的(de)漂移率和(hé)擴散率，即 μ(t) 和(hé) σ(t)，從而計算(suàn)出估值 V(t) 到達各輪融資阈值的(de)首達時(shí)間的(de)概率分(fēn)布；有了(le)這(zhè)個(gè)概率分(fēn)布便能求出每個(gè)創業公司在個(gè)給定的(de)時(shí)間内是否能成功完成指定輪融資的(de)概率。在參數估計中，目标函數就是最大(dà)化(huà)所有訓練集樣本點各輪融資發生的(de)概率。爲了(le)計算(suàn)概率，需要給定各輪融資的(de)阈值。Hunter and Zaman (2017) 将這(zhè)些阈值作爲模型的(de)超參數直接給定，但他(tā)們也(yě)強調模型對(duì)融資阈值的(de)選擇并不敏感。由于在模型中融資阈值對(duì)所有公司都一樣，因此它們僅對(duì) β 和(hé) γ 參數的(de)大(dà)小起縮放（scaling）作用(yòng)，并不影(yǐng)響特征和(hé)目标函數之間的(de)内在關系。由于目标函數太複雜(zá)，作者采用(yòng)了(le) Broyden-Fletcher-Goldfarb-Shanno 算(suàn)法（一種求解無約束非線性優化(huà)問題的(de)叠代算(suàn)法，見 Yuan 1991），它能比傳統的(de)梯度法更快(kuài)的(de)找到最優解。

5 構建最優投資組合

通(tōng)過上述參數模型，作者構建了(le)公司特征和(hé)公司估值 V 變化(huà)之間的(de)關系。但到了(le)這(zhè)一步還(hái)沒結束，僅僅有了(le)這(zhè)個(gè)關系，我們隻能大(dà)緻知道哪個(gè)公司可(kě)能更有希望獲得(de)融資。爲了(le)從成千上萬的(de)創業公司中找出獨角獸，我們最關心的(de)是每個(gè)創業公司最終能夠在有限時(shí)間内實現 IPO 的(de)概率。有了(le)首達時(shí)間的(de)概率分(fēn)布函數 F 和(hé)模型的(de)參數，很容易通(tōng)過下(xià)式求出任何公司 i 最終 IPO 的(de)概率，記爲 p_i（其中 H 爲實現 IPO 所需要的(de)阈值）：

有了(le)每個(gè)公司成功的(de)概率 p_i，那麽 VC 是不是隻需要将有限的(de)資金投入給成功概率最高(gāo)的(de)那些公司就可(kě)以了(le)呢(ne)？答(dá)案并非那麽簡單。假設一共有 m 個(gè)創業公司，由于資金有限制，VC 需要從中選出 k 個(gè)，目标是這(zhè) k 個(gè)裏面至少有一個(gè)最終會 IPO。這(zhè)個(gè)問題類似背包問題（knapsack problem）或集合覆蓋問題（set covering problem），其目标函數可(kě)以寫成：

其中 [m] = {1, 2, …, m} 構成了(le)所有公司的(de)集合，S 是 [m] 的(de)子集、大(dà)小爲 k，E_i 代表公司 i 成功 IPO（其概率爲 p_i）。由于我們希望至少有一個(gè) IPO 成功，因此隻需要将不同的(de) E_i 求交集。U(S) 就是選出的(de) k 個(gè)公司中，至少有一個(gè) IPO 成功的(de)概率，所以我們希望最大(dà)化(huà) U(S)。這(zhè)個(gè)問題是 HP-hard，難以求解。但是，該問題具備一些不錯的(de)數學性質使得(de)貪心算(suàn)法（greedy）可(kě)以找到不錯的(de)次優解。使用(yòng)貪心算(suàn)法，每一輪從所有剩餘公司中選擇一個(gè)，選出來(lái)的(de)應該是能夠最大(dà)化(huà)目标函數的(de)邊際增長(cháng)，直到 k 輪後，一共選擇 k 個(gè)公司構成 S。

如果令 S_G 和(hé) S_W 分(fēn)别表示貪心算(suàn)法的(de)解和(hé)全局最優解，那麽可(kě)以證明(míng)，目标函數的(de)準确性是有下(xià)界的(de)：

當 E_i 之間獨立時(shí) S_G 和(hé) S_W 完全一緻。在實際的(de)求解中，Hunter and Zaman (2017) 假設公司之間能否 IPO 是獨立的(de)。利用(yòng)獨立性可(kě)以把目标函數表示成 p_i 的(de)形式（p_i 是公司 i 成功 IPO 的(de)概率）：

最後需要指出的(de)一點是，在上一節的(de)建模中，作者令系數 β 随時(shí)間變化(huà)。因此在計算(suàn)目标函數 U(S) 的(de)時(shí)候必須考慮 β 的(de)變化(huà)引入的(de)随機性。這(zhè)意味著(zhe) U(S) 實際是關于 β 的(de)期望，即我們最終要最大(dà)化(huà)的(de)是按照(zhào) β 的(de)概率分(fēn)布計算(suàn)出來(lái)的(de)至少有一家創業公司成功 IPO 的(de)期望概率：

這(zhè)個(gè)期望可(kě)以使用(yòng)蒙特卡洛積分(fēn)求解。這(zhè)就是這(zhè)個(gè)量化(huà)風投框架的(de)全部内容。

6 量化(huà)效果

Hunter and Zaman (2017) 使用(yòng) 2000 到 2010 年的(de)數據作爲訓練集，之後的(de)數據作爲測試集，檢驗了(le)他(tā)們提出的(de)量化(huà)框架。通(tōng)過在訓練集上訓練模型，他(tā)們得(de)到了(le)每個(gè)公司估值布朗運動的(de)漂移率 μ_0 和(hé)擴散率 σ_0。将所有公司按照(zhào)其最高(gāo)的(de)融資輪次分(fēn)組，并考察每組中公司的(de) μ_0 和(hé) σ_0 的(de)中位數有：

觀察這(zhè)張圖可(kě)以得(de)到如下(xià)啓發：

1. 表現較差的(de)創業公司（最高(gāo)融資輪止步于種子輪或者 A 輪）通(tōng)常有較低的(de)漂移率；

2. 表現一般的(de)創業公司（最高(gāo)融資輪爲 B 到 F 輪）通(tōng)常有較高(gāo)的(de)漂移率，但是較低的(de)擴散率；

3. 表現最好的(de)公司（以 IPO 或者被收購(gòu)退出）的(de)漂移率僅僅是一般水(shuǐ)平，但是卻有很大(dà)的(de)擴散率。

這(zhè)似乎說明(míng)足夠大(dà)的(de)擴散率是成功的(de)必要條件。這(zhè)讓我們自然的(de)提出下(xià)一個(gè)問題：什(shén)麽樣的(de)公司特征可(kě)能帶來(lái)比較大(dà)的(de)擴散率（和(hé)漂移率）？作者給出了(le) 2010 年對(duì)漂移率産生最大(dà)影(yǐng)響的(de)五個(gè)行業和(hé)非行業特征及它們的(de)系數（别忘了(le) β 每年是變的(de)），以及對(duì)擴散率産生最大(dà)影(yǐng)響的(de)五個(gè)行業和(hé)非行業特征及它們的(de)系數：

從行業的(de)角度來(lái)說，在 2010 年，影(yǐng)響漂移率的(de)五大(dà)行業是線上學習(xí)、共享出行、開源、雲計算(suàn)以及生物(wù)信息學；影(yǐng)響擴散率的(de)五大(dà)行業是社交媒體、信息派送、社交網絡、APPs 應用(yòng)程序開發以及雲計算(suàn)。這(zhè)意味著(zhe)這(zhè)些行業的(de)想象空間（波動）比較大(dà)。從非行業特征角度來(lái)說，無論是對(duì)于漂移率還(hái)是擴散率，最重要的(de)特征就是創始團隊的(de)經驗，特别是管理(lǐ)團隊成員(yuán)是否在成立本公司之前有過成功的(de)創業經曆。除此之外，教育背景（是否畢業于名校），和(hé)早期投資者過往的(de)成功率（maximum acquisition fraction）也(yě)尤爲重要。

根據訓練模型和(hé)最優投資組合的(de)優化(huà)函數，作者分(fēn)别在 2011 年和(hé) 2012 年構建了(le)兩個(gè)投資組合，每個(gè)裏面包含 10 個(gè)創業公司。這(zhè)兩個(gè)組合如下(xià)表所示，其中第二列爲到 2016 年底每個(gè)公司最終的(de)融資或退出情況，第三列爲模型預測的(de)退出概率 p_i，第四列爲組合中依次加入每個(gè)公司之後目标函數 U(S) 的(de)變化(huà)。

結果顯示，在 2011 年選出來(lái)的(de) 10 個(gè)公司中，有 6 個(gè)如今已經成功退出了(le)（包括 1 個(gè) IPO 和(hé) 5 個(gè)被收購(gòu)）；在 2012 年選出的(de) 10 個(gè)公司中，有 4 個(gè)已經退出了(le)（均是被收購(gòu)）。這(zhè)可(kě)以說是令人(rén)稱奇的(de)結果了(le)。爲了(le)橫向比較，Hunter and Zaman (2017) 把他(tā)們的(de)模型和(hé)頂級 VC 以及一個(gè)基準模型比較。基準模型采用(yòng)了(le) ordered logistic regression 算(suàn)法，它使用(yòng)每個(gè)公司最高(gāo)的(de)融資輪作爲标簽，進行有監督分(fēn)類。

上圖中，左側的(de)爲 2011 年的(de)結果，右側爲 2012 年的(de)結果。橫坐(zuò)标表示所投公司數量，縱坐(zuò)标爲成功退出公司的(de)數量。其中紅線和(hé)藍線爲基于 Hunter and Zaman (2017) 框架的(de)兩個(gè)版本的(de)模型的(de)結果，它們的(de)成功率遠(yuǎn)超基準模型以及頂級 VC；在 2011 年的(de)組合中，當投資個(gè)數增加時(shí)，基準模型 ordered logistic regression 也(yě)取得(de)了(le)不錯的(de)效果，但是當投資的(de)創業公司較少時(shí)，Hunter and Zaman (2017) 的(de)框架仍然是最出色的(de)。

7 啓發與思考

Hunter and Zaman (2017) 在這(zhè)個(gè)量化(huà)風險投資框架中集成了(le)大(dà)量的(de)機器學習(xí)和(hé)數學優化(huà)算(suàn)法。對(duì)它們的(de)梳理(lǐ)如下(xià)：

1. 從創業公司數據庫（如作者采用(yòng)的(de) Crunchbase）和(hé) Linkedin 抓取創業公司和(hé)創業者、投資人(rén)的(de)數據；從行業、團隊、早期投資人(rén)三個(gè)維度構建特征；這(zhè)其中運用(yòng)了(le)知識圖譜的(de)構建以及語義分(fēn)析等技術；

2. 使用(yòng)帶漂移率和(hé)擴散率的(de)布朗運動來(lái)建模創業公司估值的(de)變化(huà)，以最大(dà)化(huà)訓練集中所有公司各輪融資發生的(de)概率爲目标訓練模型參數，這(zhè)是一個(gè)有監督學習(xí)問題，求解時(shí)采用(yòng)了(le) BFGS 算(suàn)法；

3. 根據模型的(de)參數，使用(yòng)布朗運動首達時(shí)間的(de)概率分(fēn)布計算(suàn)出每個(gè)公司實現 IPO 的(de)概率。

4. 使用(yòng)貪心算(suàn)法和(hé)蒙特卡洛積分(fēn)求解公司選取最優化(huà)問題，最優化(huà)的(de)目标是最大(dà)化(huà)選出來(lái)的(de)公司中至少有一個(gè)能夠實現 IPO 的(de)概率。

一個(gè)優秀的(de)風險投資公司必備的(de)兩點是一套科學的(de)方法論（來(lái)洞察投資熱(rè)點和(hé)評估創業團隊），和(hé)豐富的(de)資源（無論是募資能力還(hái)是社會資源）。沒有前者，它找不到好的(de)項目；沒有後者，好的(de)項目不找它。本文介紹的(de)這(zhè)個(gè)量化(huà)框架可(kě)以是這(zhè)套科學方法論的(de)有利助力。爲什(shén)麽這(zhè)麽說呢(ne)？因爲哪怕是抛開該框架在樣本外的(de)預測效果而言，它通(tōng)過訓練集建模得(de)到的(de)參數就能給 VC 們帶來(lái)很多(duō)非常有幫助的(de)啓發，這(zhè)其中包括對(duì)熱(rè)點行業的(de)追蹤以及對(duì)優秀創業公司必備的(de)特征的(de)精準定位。比如，通(tōng)過模型的(de)參數可(kě)以找出時(shí)下(xià)最熱(rè)門的(de)行業，并指出一個(gè)創業公司想要成功必備的(de)特質是創始人(rén)的(de)工作經曆和(hé)教育背景 —— 資本尤其青睐連續創業者。這(zhè)些發現和(hé)國内很多(duō)頂級 VC 的(de)“投的(de)是人(rén)，而不是項目”的(de)理(lǐ)念不謀而合。

當然在現階段，純量化(huà)的(de)風投框架無法解決一個(gè)風投公司的(de)資源問題。換句話(huà)說，一個(gè)量化(huà)型風投基金如果沒人(rén)脈沒資源、沒有足夠的(de)募資能力，那即便是它找到了(le)最具成功潛質的(de)公司，也(yě)很難得(de)到股權投資的(de)機會。但是對(duì)于那些已在市場(chǎng)中站穩腳跟的(de) VC 們，掌握一套量化(huà)的(de)科學評估體系（無論是對(duì)行業還(hái)是對(duì)創業公司） —— 即便該體系沒有本文介紹的(de)這(zhè)麽複雜(zá) —— 也(yě)都是大(dà)有裨益的(de)。該體系一定會在當下(xià)的(de)風投界爲這(zhè)些 VC 們赢得(de)一定的(de) edge。如果有一天，機器學習(xí)（或更廣義的(de)，人(rén)工智能）真的(de)在投資界大(dà)有作爲，那麽一級市場(chǎng)的(de) VC 們恐怕會比二級市場(chǎng)的(de)基金經理(lǐ)們率先“淪陷”，而“幹掉”他(tā)們的(de)正是他(tā)們扶持起來(lái)的(de)這(zhè)些人(rén)工智能領域的(de)獨角獸們。

猶未可(kě)知。

參考文獻

Hunter, D. and T. Zaman (2017). Picking winners: a framework for venture capital investment. Working paper.

Wu, Z. and M. Palmer (1994). Verbs semantics and lexical selection. In Proceedings of the 32th annual meeting on association for computational linguistics, 133 – 138.

Yuan, Y.X. (1991). A modified BFGS algorithm for unconstrained optimization. IMA Journal of Numerical Analysis 11(3), 325 – 332.

免責聲明(míng)：入市有風險，投資需謹慎。在任何情況下(xià)，本文的(de)内容、信息及數據或所表述的(de)意見并不構成對(duì)任何人(rén)的(de)投資建議(yì)。在任何情況下(xià)，本文作者及所屬機構不對(duì)任何人(rén)因使用(yòng)本文的(de)任何内容所引緻的(de)任何損失負任何責任。除特别說明(míng)外，文中圖表均直接或間接來(lái)自于相應論文，僅爲介紹之用(yòng)，版權歸原作者和(hé)期刊所有。

合格投資者聲明(míng)

機器學習(xí)能否助力風險投資？