一般而言,量化投資可粗略分為六個(gè)環(huán)節(jié):收集數(shù)據(jù)、數(shù)據(jù)清洗、特征提取、模型開(kāi)發(fā)、組合優(yōu)化、交易執(zhí)行。數(shù)據(jù)收集和處理是量化投資中必不可少的環(huán)節(jié),理解金融數(shù)據(jù)的復(fù)雜性及數(shù)據(jù)處理的重要性,對(duì)認(rèn)識(shí)量化投資具有重要意義。
Q45:如何理解金融數(shù)據(jù)的復(fù)雜性,它有哪些主要特點(diǎn)?
(一)低信噪比
金融數(shù)據(jù)中噪音比例高,提取有效信號(hào)的難度較大,模型如果調(diào)整不夠得當(dāng),就容易學(xué)習(xí)“噪音”。由于這一特性,量化投資在模型開(kāi)發(fā)和調(diào)校時(shí)尤其強(qiáng)調(diào)避免過(guò)擬合,處理金融數(shù)據(jù)時(shí)格外注重邏輯。以A股為例,不同股票具有不同漲跌停規(guī)則,此外新股上市以及復(fù)牌等行為都需要特殊處理,故而需要在邏輯的基礎(chǔ)上對(duì)信息進(jìn)行合理的挖掘、過(guò)濾、組合。
(二)時(shí)序單調(diào)性
證券交易數(shù)據(jù)等時(shí)間序列有時(shí)序性(時(shí)間不可倒流),且金融市場(chǎng)時(shí)刻存在博弈,規(guī)律具有時(shí)變特性。量化投資方法論的目的是用歷史數(shù)據(jù)預(yù)測(cè)未來(lái),所以一定要避免未來(lái)信息的引入,并合理評(píng)估歷史回測(cè)。
Q46:金融數(shù)據(jù)可以如何分類(lèi)?
(一)按照數(shù)據(jù)格式分:
(1)標(biāo)準(zhǔn)化數(shù)據(jù)
常見(jiàn)的是截面、時(shí)間序列等數(shù)值類(lèi)型數(shù)據(jù),如交易所原始數(shù)據(jù)、原始行情及各類(lèi)衍生出的價(jià)格、交易量、K線圖等。普通投資者在炒股軟件上看的分時(shí)圖、K線圖等數(shù)據(jù)也都衍生于交易所的原始數(shù)據(jù),這些較為干凈的數(shù)據(jù)被稱為“標(biāo)準(zhǔn)化數(shù)據(jù)”。
(2)非標(biāo)準(zhǔn)化數(shù)據(jù)
以文本數(shù)據(jù)為主,包括財(cái)經(jīng)新聞、財(cái)經(jīng)論壇問(wèn)答、賣(mài)方分析師投資報(bào)告、第三方機(jī)構(gòu)提供的特殊數(shù)據(jù)等。這些數(shù)據(jù)里低相關(guān)非重大信息占比高,相比標(biāo)準(zhǔn)化數(shù)據(jù)會(huì)更復(fù)雜一些,所以被稱為“非標(biāo)準(zhǔn)化數(shù)據(jù)”。為應(yīng)用于量化策略開(kāi)發(fā),必須先對(duì)其進(jìn)行數(shù)據(jù)清洗等結(jié)構(gòu)化處理。
(二)按照數(shù)據(jù)來(lái)源分:
(1)價(jià)量數(shù)據(jù)
價(jià)量數(shù)據(jù)包括一切能從市場(chǎng)交易行為中提取的信息,不局限于股票及其他資產(chǎn)的價(jià)格,以及衍生的各項(xiàng)技術(shù)類(lèi)指標(biāo)。包括日間量?jī)r(jià)數(shù)據(jù)(日K)、日內(nèi)量?jī)r(jià)數(shù)據(jù)(分時(shí)數(shù)據(jù))、逐筆數(shù)據(jù)(股票的每筆成交和掛單數(shù)據(jù))。其中日內(nèi)量?jī)r(jià)數(shù)據(jù)的體量是日間量?jī)r(jià)數(shù)據(jù)的幾百到幾千倍,逐筆數(shù)據(jù)的體量可以是日間量?jī)r(jià)數(shù)據(jù)的萬(wàn)倍以上。
(2)基本面數(shù)據(jù)
既包括宏觀基本面、產(chǎn)業(yè)鏈上下游發(fā)展、行業(yè)發(fā)展趨勢(shì)等,也包括上市公司的財(cái)務(wù)報(bào)表如資產(chǎn)負(fù)債表、利潤(rùn)表、現(xiàn)金流量表等。主觀投資在獲取及處理基本面數(shù)據(jù)上擁有明顯的相對(duì)優(yōu)勢(shì),通過(guò)深度調(diào)研還可獲取非公開(kāi)非結(jié)構(gòu)化信息。
(3)事件驅(qū)動(dòng)數(shù)據(jù)
通過(guò)預(yù)測(cè)市場(chǎng)對(duì)特定事件的反應(yīng)不足或過(guò)度反應(yīng),判斷股票價(jià)格變化以獲取超額回報(bào)。在金融領(lǐng)域,“事件”通常指“可能在短期導(dǎo)致投資者預(yù)期發(fā)生變化、對(duì)公司的基本面或其股票價(jià)格產(chǎn)生重大影響的情況”,比如股票回購(gòu)和股東增持等。
(4)另類(lèi)數(shù)據(jù)
另類(lèi)數(shù)據(jù)是個(gè)相對(duì)的概念——當(dāng)某種另類(lèi)數(shù)據(jù)逐漸被市場(chǎng)上大部分參與者所接納和使用時(shí),就不再“另類(lèi)”。目前來(lái)看,另類(lèi)數(shù)據(jù)包括所有投資研究中使用的非傳統(tǒng)來(lái)源的新型數(shù)據(jù),如ESG數(shù)據(jù)、社交媒體評(píng)論、衛(wèi)星圖像、移動(dòng)設(shè)備數(shù)據(jù)、應(yīng)用程序使用情況、互聯(lián)網(wǎng)搜索記錄和消費(fèi)者交易數(shù)據(jù)等。
一般而言,數(shù)據(jù)點(diǎn)及結(jié)構(gòu)化數(shù)據(jù)越多,越有利于量化投資進(jìn)行建模。目前國(guó)內(nèi)主流量化私募的模型中價(jià)量因子占比較高,同時(shí)持續(xù)對(duì)基本面因子深入研究。隨著量化行業(yè)的持續(xù)發(fā)展,未來(lái)各類(lèi)因子都會(huì)提供非常重要的貢獻(xiàn)。
Q47:國(guó)內(nèi)對(duì)另類(lèi)數(shù)據(jù)的研究和運(yùn)用情況如何?
另類(lèi)數(shù)據(jù)研究在海外已擁有較為成熟的應(yīng)用。另類(lèi)投資管理協(xié)會(huì)(AIMA)與金融科技公司SS&C合作發(fā)布的報(bào)告顯示,目前全球活躍的另類(lèi)數(shù)據(jù)供應(yīng)商超過(guò)400家,而1990年時(shí)只有20家。根據(jù)AIMA與美國(guó)銀行的聯(lián)合調(diào)查,目前約有一半的資管機(jī)構(gòu)已在使用另類(lèi)數(shù)據(jù),且這一數(shù)量還在不斷增長(zhǎng)。
但在國(guó)內(nèi),由于金融市場(chǎng)發(fā)展階段的差異性,具體表現(xiàn)為獲取難度偏大(高價(jià)值數(shù)據(jù)獲取難、易獲取數(shù)據(jù)質(zhì)量低)、成本相對(duì)較高,非結(jié)構(gòu)化數(shù)據(jù)的處理技術(shù)還不夠成熟等原因,目前另類(lèi)數(shù)據(jù)領(lǐng)域仍屬藍(lán)海。除了與多家數(shù)據(jù)第三方保持聯(lián)動(dòng)外,不少主流私募也在以較快的速度不斷搜集、積累和持續(xù)探索另類(lèi)數(shù)據(jù),以尋找多元化、差異化的Alpha來(lái)源。
Q48:數(shù)據(jù)清洗和處理的一般步驟有哪些?
數(shù)據(jù)數(shù)量和質(zhì)量將直接影響最終投資組合表現(xiàn),其中數(shù)據(jù)的數(shù)量則是制約機(jī)器學(xué)習(xí)模型訓(xùn)練和預(yù)測(cè)準(zhǔn)確度的關(guān)鍵因素。數(shù)據(jù)清洗和預(yù)處理的步驟一般包括:缺失值處理、 重復(fù)值處理、數(shù)據(jù)去極值、 數(shù)據(jù)中性化(指消除數(shù)據(jù)中的某些因素對(duì)投資策略的影響,從而使策略更具普適性和可靠性。常見(jiàn)的中性化包括市值中性化、行業(yè)中性化、風(fēng)格中性化等)、 數(shù)據(jù)標(biāo)準(zhǔn)化(如日期可能需要被轉(zhuǎn)換為特定的格式)等。
(CIS)
校對(duì):劉榕枝