《微觀量化百問》第十四期丨模型和模型訓(xùn)練中的過擬合

欄花.jpg

談到量化投資，我們經(jīng)常會聽到“模型”這個詞，量化投資中的模型是什么概念？又該如何理解模型訓(xùn)練中的“過擬合”問題？本期專欄將圍繞相關(guān)專業(yè)話題進(jìn)行探討。

Q53：何為模型？如何區(qū)分模型與算法？

一般而言，模型（Model）由數(shù)據(jù)及如何使用歷史數(shù)據(jù)對未來數(shù)據(jù)進(jìn)行預(yù)測的過程組成。而算法（Algorithm）指執(zhí)行一種優(yōu)化過程，即在訓(xùn)練數(shù)據(jù)集上讓模型的誤差最小化。

在機(jī)器學(xué)習(xí)領(lǐng)域，“機(jī)器學(xué)習(xí)算法”經(jīng)常與“機(jī)器學(xué)習(xí)模型”交替使用——前者指的是在數(shù)據(jù)上運(yùn)行以創(chuàng)建機(jī)器學(xué)習(xí)“模型”的過程，后者著重表達(dá)用于進(jìn)行預(yù)測所需的規(guī)則、數(shù)字和任何其他特定于算法的數(shù)據(jù)結(jié)構(gòu)。

在模型開發(fā)/模型預(yù)測、模型訓(xùn)練/預(yù)測值合并等環(huán)節(jié)中會將提取到的特征或Alpha因子進(jìn)一步加工，得到“更優(yōu)Alpha”。早期量化私募的模型開發(fā)以線性模型為主，隨著非線性模型（如機(jī)器學(xué)習(xí)、深度學(xué)習(xí)模型）占比逐步提升，其模型復(fù)雜度、參數(shù)相比傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)模型有了很大提升，預(yù)測效果也更好，量化機(jī)構(gòu)整體投資能力獲得較大進(jìn)步——具體到如何精細(xì)化處理樹模型、神經(jīng)網(wǎng)絡(luò)模型等也從側(cè)面體現(xiàn)出各家研究深度和廣度的不同。

Q54：量化投資通用預(yù)測模型有哪些？

量化投資的環(huán)節(jié)中所采用的模型大致可以分為三類：因子挖掘模型、預(yù)測模型和組合優(yōu)化及交易算法模型。其中預(yù)測模型的發(fā)展總體而言是從簡單到復(fù)雜、未來還要更復(fù)雜的迭代過程。目前，業(yè)內(nèi)比較通用的預(yù)測模型包括：

（1）注重可解釋性的線性模型：OLS

（2）統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)模型：Lasso、SVM、GBDT

（3）可端到端的深度學(xué)習(xí)模型：DNN、LSTM、Transformer、GNN

Q55：什么是過擬合？

過擬合（overfitting）是統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的常用概念，可分為訓(xùn)練過擬合和回測過擬合兩個層次：

一、訓(xùn)練過擬合是機(jī)器學(xué)習(xí)語境下偏狹義色彩的過擬合，指“機(jī)器學(xué)習(xí)模型在訓(xùn)練集上表現(xiàn)良好，但在測試集或新數(shù)據(jù)上表現(xiàn)較差”。產(chǎn)生原因是模型超參數(shù)選擇不當(dāng)或模型過度訓(xùn)練，解決方案通常是采用合理的交叉驗(yàn)證方法選擇模型超參數(shù)。

二、回測過擬合是量化研究語境下偏廣義色彩的過擬合，指“量化模型在回測階段表現(xiàn)好，在實(shí)盤階段表現(xiàn)差”。產(chǎn)生原因是市場規(guī)律發(fā)生變化，或者對回測階段數(shù)據(jù)噪音的過度學(xué)習(xí)。回測過擬合難以根除，相對合理的解決方案是借助量化指標(biāo)檢驗(yàn)回測過擬合程度。

Q56：如何預(yù)防過擬合？

當(dāng)模型過于復(fù)雜、參數(shù)數(shù)量過多、學(xué)習(xí)能力太強(qiáng)時(shí)，容易出現(xiàn)模型對于訓(xùn)練集以外的數(shù)據(jù)泛化能力差，表現(xiàn)為過擬合。

由于大多數(shù)機(jī)器學(xué)習(xí)模型并不是專門為金融時(shí)間序列開發(fā)的，這些模型在量化建模中的應(yīng)用需要適時(shí)調(diào)整。所以將機(jī)器學(xué)習(xí)應(yīng)用到量化投資領(lǐng)域時(shí)，在模型訓(xùn)練中如何預(yù)防和避免過擬合顯得尤為重要，需要綜合考慮預(yù)測精度、模型可解釋性、模型魯棒性和計(jì)算復(fù)雜性等因素。其中金融時(shí)間序列預(yù)測必須避免使用未來信息，有時(shí)更傾向于隨著時(shí)間的推移將時(shí)間序列分成訓(xùn)練、驗(yàn)證和測試塊，即進(jìn)行前向驗(yàn)證，而非模型超參數(shù)優(yōu)化中的交叉驗(yàn)證。

在深度學(xué)習(xí)中，超參數(shù)的選擇對模型的訓(xùn)練和泛化性能有很大的影響——如果超參數(shù)過大，可能會導(dǎo)致模型過擬合，因此需要根據(jù)數(shù)據(jù)集和模型結(jié)構(gòu)進(jìn)行調(diào)整。這里的超參數(shù)是指那些需要手動設(shè)置的參數(shù)，這些參數(shù)不能直接從數(shù)據(jù)中學(xué)習(xí)得到，而需要通過持續(xù)調(diào)整和優(yōu)化參數(shù)來得到最優(yōu)的模型。

Q57：還有哪些原因可能導(dǎo)致模型回測與實(shí)盤中表現(xiàn)不一致？

模型在回測與實(shí)盤中表現(xiàn)不一致是投資領(lǐng)域中普遍存在的現(xiàn)象，并不都是過擬合導(dǎo)致的，還可能與以下因素有關(guān)：

（1）數(shù)據(jù)偏差：回測時(shí)使用的歷史數(shù)據(jù)可能與實(shí)際市場環(huán)境存在一定差異；

（2）滑點(diǎn)和交易成本：實(shí)際交易中存在的滑點(diǎn)和交易成本都應(yīng)在回測時(shí)進(jìn)行預(yù)估；

（3）策略實(shí)現(xiàn)限制：在實(shí)盤交易中，策略實(shí)現(xiàn)效果可能會受交易執(zhí)行速度、交易執(zhí)行規(guī)模等因素的影響；

（4）市場已發(fā)生變化：由于金融市場由不同參與者組成，投資者結(jié)構(gòu)及投資者行為均會發(fā)生變化。金融市場還受整體宏觀環(huán)境、政治和經(jīng)濟(jì)等因素情況影響。所以不同階段市場運(yùn)行規(guī)律會發(fā)生一定的變化，基于過去總結(jié)的有效規(guī)律在未來也未必有效。

（CIS）

校對：姚遠(yuǎn)

責(zé)任編輯：王智佳

機(jī)構(gòu)

綜合

量化投資

聲明：證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險(xiǎn)自擔(dān)

下載“證券時(shí)報(bào)”官方APP，或關(guān)注官方微信公眾號，即可隨時(shí)了解股市動態(tài)，洞察政策信息，把握財(cái)富機(jī)會。

網(wǎng)友評論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評論僅供其表達(dá)個人看法，并不表明證券時(shí)報(bào)立場

暫無評論

為你推薦

海爾智家前三季度凈利潤151.5億元終端零售逐月改善

證券時(shí)報(bào)網(wǎng) 黃翔 2024-10-30 17:39
上海10宗地出售，合計(jì)起價(jià)超256億！

券商中國張達(dá) 2024-10-30 18:16
中關(guān)村：創(chuàng)新驅(qū)動向未來前三季度營收凈利雙增長

證券時(shí)報(bào)網(wǎng) 2024-10-30 18:08
A股，異動！兩大變數(shù)來襲？

券商中國時(shí)謙 2024-10-30 15:07
【研報(bào)掘金】機(jī)構(gòu)：政策組合拳有望修復(fù)市場情緒優(yōu)質(zhì)房企投資機(jī)會或?qū)⒊掷m(xù)凸顯

證券時(shí)報(bào)網(wǎng) 吳曉輝 2024-10-30 16:49
這些銀行，新行長正式就任

券商中國謝忠翔 2024-10-30 15:06

中文字幕无码人妻少妇,亚洲人妻中文字幕,国产免费国语一级特黄aa大片,超碰97人人密牙