證券日報微信

證券日報微博

您所在的位置: 網(wǎng)站首頁 > 量化百問 > 正文

《微觀量化百問》第十三期 特征和特征提取

2024-10-22 19:15  來源:證券日報網(wǎng)

    特征提取是量化投資中又一環(huán)節(jié),做好特征提取能節(jié)省大量后續(xù)環(huán)節(jié)的工作。什么是特征?特征提取有著哪些全新發(fā)展趨勢?本期欄目將圍繞這些問題展開。

    Q49:什么是特征?

    在機器學(xué)習(xí)領(lǐng)域,特征指“被觀測對象的可測量性能或特性”,通常是數(shù)值型的,但語法模式識別可以使用結(jié)構(gòu)特征(如字符串和圖)。

    Q50:特征和因子的區(qū)別是什么?

    因子指“對個股收益差異有解釋作用的特征”,其中Alpha因子更為強調(diào)其對未來個股相對收益的預(yù)測能力。“特征”更側(cè)重符合數(shù)理統(tǒng)計規(guī)律的信息,“因子”相對更側(cè)重邏輯性和可解釋性。一般來講,中低頻數(shù)據(jù)能直接提取Alpha因子,不少低頻指標本身就具有選股能力;而原始的高頻行情數(shù)據(jù)一般不能直接用作Alpha因子,需要通過信號變換、時間序列分析、機器學(xué)習(xí)等方法從高頻數(shù)據(jù)中構(gòu)建特征,才能構(gòu)建選股因子。

    Q51:特征提取的作用和發(fā)展趨勢有哪些?

    一般而言,量化投資可粗略分為六大環(huán)節(jié):收集數(shù)據(jù)、數(shù)據(jù)清洗、特征提取、模型開發(fā)、組合優(yōu)化、交易執(zhí)行。其中“特征提取”環(huán)節(jié),各家稱呼并不相同,簡單的Alpha因子和簡單的特征工程處理都在這一環(huán)節(jié)進行。

    在機器學(xué)習(xí)領(lǐng)域,“特征工程處理”是指在給定數(shù)據(jù)、模型和任務(wù)的情況下設(shè)計出最合適特征的過程,相當于梳理數(shù)據(jù)并結(jié)合業(yè)務(wù)需要提取有意義的信息,以干凈整齊的形態(tài)進行組織。

    做好特征提取能節(jié)省大量后續(xù)環(huán)節(jié)的工作:以D.E.Shaw為代表的部分海外頂級機構(gòu),并未特別強調(diào)深度學(xué)習(xí)模型的復(fù)雜性,但由于Alpha因子質(zhì)量較高,即使并不復(fù)雜的模型也能獲得出色的建模效果。這也是為何業(yè)內(nèi)并不會片面強調(diào)因子數(shù)量,而因子的質(zhì)量(即存在多少獨立的Alpha)才是關(guān)鍵。不同的方法論會得到不同的成果,從邏輯出發(fā)的因子質(zhì)量比較高,暴力方式得到的因子數(shù)量比較多。

    近年來,A股市場更為有效、機構(gòu)化趨勢明顯,量化私募從市場獲取超額收益的難度增加,因子開發(fā)也面臨著數(shù)據(jù)維度更高、信息密度更低、噪聲含量更高的挑戰(zhàn)。機器學(xué)習(xí)等擅長處理海量數(shù)據(jù)和高維特征的方法得以快速應(yīng)用到量化投研流程中。其中深度學(xué)習(xí)模型具有靈活多樣的網(wǎng)絡(luò)結(jié)構(gòu),適合不同情景的建模問題,本身具有自動學(xué)習(xí)特征的能力。隨著網(wǎng)絡(luò)層數(shù)增加,模型的線性和非線性表達能力也會在一定范圍內(nèi)明顯增強。

    隨著人工神經(jīng)網(wǎng)絡(luò)的進一步發(fā)展,除了選擇分析已經(jīng)提取好特征的信號,還可以直接分析原始數(shù)據(jù)而不需要提取特征。該做法能避免人為選擇導(dǎo)致的信息丟失,保留全部信息,最終有助于獲得相關(guān)性極低的α。

    Q52:量化機構(gòu)的迭代方向有哪些?

    第一類:追求更新的方法論

    例如在特征工程方面,增進對數(shù)據(jù)的深刻理解,“把對市場的深刻理解和最先進的科學(xué)技術(shù)相結(jié)合”。簡單的因子提取和連接并不能增加收益,不同維度的多元化拓展是未來努力的方向——雖然目前另類數(shù)據(jù)在中國A股的應(yīng)用并不廣泛,也未能大幅增加策略的超額收益,但發(fā)展前景廣闊,仍值得持續(xù)積累并投入研究。與自然語言學(xué)習(xí)不同,股票市場本身的數(shù)據(jù)點不夠多,只堆砌數(shù)據(jù)必定導(dǎo)致過擬合。優(yōu)秀的研究員從理解出發(fā),依靠邏輯型的因子(如事件驅(qū)動因子)也能進行數(shù)據(jù)分析,發(fā)掘他人想不到的東西。

    第二類:側(cè)重更新的模型、更高的算力——依靠模擬和近似人的行為試圖替代人的理解

    2017年,Google的研究者提出Transformer的神經(jīng)網(wǎng)絡(luò)模型,這啟發(fā)了全球量化機構(gòu)在投研中加強新科技的應(yīng)用。如果應(yīng)用更新的模型,Alpha挖掘能力可能比以前提升幅度更大。以深度學(xué)習(xí)為代表的“暴力”方式非常重要,在諸如神經(jīng)網(wǎng)絡(luò)做幾層、怎樣做才不會過擬合的細節(jié)問題上即是不同機構(gòu)的分野,這也是“采用同一個模型,業(yè)績卻千變?nèi)f化”的原因。

    除了對基礎(chǔ)設(shè)施等硬件進行資金投入外,量化私募還需要努力營造有利于高效產(chǎn)出的投研環(huán)境,為優(yōu)秀頂尖人才提供相對較優(yōu)的福利待遇,兼顧硬實力的提升和軟環(huán)境的升級。

    (CIS)

-證券日報網(wǎng)
  • 24小時排行 一周排行

版權(quán)所有證券日報網(wǎng)

互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120180014增值電信業(yè)務(wù)經(jīng)營許可證B2-20181903

京公網(wǎng)安備 11010202007567號京ICP備17054264號

證券日報網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請仔細閱讀法律申明,風(fēng)險自負。

證券日報社電話:010-83251700網(wǎng)站電話:010-83251800

網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net

官方客戶端

安卓

IOS

官方微信

掃一掃,加關(guān)注

官方微博

掃一掃,加關(guān)注