因素模型 (Factor Models) 令人討喜的地方,在於其解釋能力。y = Ax + B,一條方程很簡單地把 y 與 x 的關係描述出來。
最近在研究機器學習 ( Machine Learning ),感受到一些沖擊,好像是為追求更強的模型準確度,解釋能力往往是必須捨棄。
其中一種很常用的技巧,就是把多個模型組合在一起來提高準確度,即使是用了解釋能力很強的迴歸模型 (regression model),組合在一起的話就很難解釋了。例如我可以動用五個不同的迴歸模型,然後很民主地多數服從少數,以五個模型的表決作為預測。雖然每個模型各自都很好理解,但組合在一起的話,各個因素與結果的關係已經看不出來。
還記得我是討厭類神經網絡 Neural Network,原因之一就是那黑箱作業的感覺;然而最近自己一些常用的模型以及處理手法,其結果都是以準確度犠牲解釋力,與黑箱作業無異。
其中一種也很好用的模型是類似隨機決策森林 Random Forests 之流,模型本身就是一個數以百計決策樹 decision tree 的組合,當中的因果關係根本無法說清,只能說最終結果就是考慮一籃子因素後,集團所逹成的共識。最近建構過一個模型,就是把這類森林組合,亦即是共識後的共識。
近年電腦運算能力,將這堆機器學習模型的門檻降低,甚至足以組合大量模型以推高準繩度。連相機也能自動認出人臉,遊戲機可以辨識動作,背後用到的不時就是這堆沒甚麼解釋能力的模型。
天氣預測也是用物理定律模擬推算出來,相對於預測的準確度,模型的解釋能力又有幾人在意?
用作預測的模型與用作理解背後原理的模型,分道揚鑣。
Recent Comments