1. 金融文本挖掘背景介紹 文本挖掘作為數(shù)據(jù)挖掘的一個分支,挖掘?qū)ο笸ǔJ欠墙Y(jié)構(gòu)化的文本數(shù)據(jù),常見的文本挖掘?qū)ο蟀ňW(wǎng)頁中的論壇、微博、新聞等。文本挖掘是目前金融量化研究的一個非常熱門的領(lǐng)域,其主要原因有以下三點(diǎn): 一是對傳統(tǒng)數(shù)值型數(shù)據(jù)的研究已經(jīng)相對成熟了,而對文本數(shù)據(jù)的研究處于起步狀態(tài),在全新的數(shù)據(jù)源尋找超額收益相對容易。 二是網(wǎng)絡(luò)文本數(shù)據(jù)更直接的反應(yīng)投資者的投資意向。比如說,投資者A在某論壇中發(fā)表言論提及某概念,那么表示他近期特別關(guān)注該概念的投資機(jī)會;再比如說,當(dāng)投資者B想?yún)⑴c到某個主題投資中,那么他應(yīng)該會買入那些在日常新聞中閱讀到的和這些概念相關(guān)的股票。當(dāng)我們以群體的方式去研究這些文本數(shù)據(jù),便可以獲取額外的信息。 三是目前網(wǎng)絡(luò)所留存的文本數(shù)據(jù)在數(shù)量以及時間上都可以滿足我們?nèi)?gòu)建成熟的量化投資模型。量化投資模型的穩(wěn)定性在很大程度上取決于樣本的數(shù)量,而隨著近年來互聯(lián)網(wǎng)技術(shù)的普及,網(wǎng)絡(luò)中留存的文本數(shù)據(jù)也呈幾何式增長,且普及時間也基本在 5 年以上,因此這些數(shù)據(jù)滿足構(gòu)建量化模型的基本要求。 在目前的文本數(shù)據(jù)研究領(lǐng)域,大家主要集中在對點(diǎn)數(shù)據(jù)的定性研究上,而對文本數(shù)據(jù)在時間序列上的定量分析較少。這主要有以下兩個方面原因:一是文本數(shù)據(jù)是以非結(jié)構(gòu)化的形式存儲,且歷史數(shù)據(jù)規(guī)模較大,這是傳統(tǒng)統(tǒng)計分析難以處理的。二是文本數(shù)據(jù)獲取較難,需要長時間的積累,如果早期沒有進(jìn)行積累的話,短期內(nèi)很難獲取足夠長時間的數(shù)據(jù)進(jìn)行時間序列分析。 2. 在眾人恐懼時貪婪,在眾人貪婪時恐懼 所有投資者似乎都認(rèn)可這樣的常識:在眾人恐懼時貪婪,在眾人貪婪時恐懼。然而要驗(yàn)證這個邏輯似乎是不容易的,最主要的原因就是對情緒的刻畫沒有一個標(biāo)準(zhǔn)模式,有人用市場波動率指標(biāo),也有人用換手率指標(biāo)。然而通過文本挖掘,我們給出了一個更直觀的方法:如果說一個投資者在股票論壇上發(fā)的帖子反應(yīng)了他對當(dāng)前股市的情緒,那么所有論壇的帖子反應(yīng)了整個投資者群體對當(dāng)前股市的情緒,基于這樣的想法,我們按天去收集股票論壇中所有的發(fā)貼,并對這些帖子進(jìn)行情感分析、統(tǒng)計分析,得到一個可量化的、反映投資者群體情緒的指標(biāo)。 前文中提到的“情感分析”,可以理解為一個黑盒,這個黑盒的輸入端為一段文字,輸出端為一個數(shù)值,這個數(shù)值反映了這句話的情感。若數(shù)值為正,則表示這段文字是樂觀的;若數(shù)值為負(fù),則表示這段文字是悲觀的。在常規(guī)的情感分析算法中,監(jiān)督學(xué)習(xí)仍然是主流,主要包括一些常規(guī)的分類算法,如貝葉斯,Kmean,SVM 等;另外還有一些基于規(guī)則的方法,當(dāng)然考慮到金融詞匯的特殊性,還需要進(jìn)行一些特別的處理。 由于中文詞語博大精深,我們的測試結(jié)果顯示:情感分析的正確率僅在85%左右,因此情感分析僅針對較大樣本下的統(tǒng)計才有意義。 運(yùn)用該情緒指標(biāo),我們便可以構(gòu)建貪婪恐懼的擇時模型。關(guān)于具體擇時模型構(gòu)建的信息,請參考我們后續(xù)的報告。 3. 眼球經(jīng)濟(jì)與主題投資 眼球經(jīng)濟(jì)是指依靠吸引公眾注意力來獲取收益的一種經(jīng)濟(jì)活動,在某種程度上,主題投資也是一樣的,它通過不停的吸引更多投資者的注意力來維持行情。如果能夠?qū)⒅黝}投資吸引到的投資者注意力進(jìn)行量化,我們在研究主題投資時便能獲取更豐富的額外信息。因此,我們定義了主題熱度指標(biāo),該指標(biāo)反應(yīng)了某個主題所受到的投資者關(guān)注量。具體的操作方法是:我們統(tǒng)計每日論壇中這些主題詞出現(xiàn)的頻率,然后計算其 10日移動平均值,得到主題熱度指標(biāo)。 圖 2 所示為“特斯拉”的主題熱度以及與其有較大相關(guān)性的比亞迪的走勢。從中我們可以看出主題熱度與主題相關(guān)股走勢呈正相關(guān)關(guān)系。這也驗(yàn)證了主題投資的特點(diǎn):主題可以通過不停的吸引更多投資者注意力來維持行情。圖 3 中,傳媒主題熱度以及傳媒指數(shù)的走勢也高度相關(guān)。 然而經(jīng)過我們的統(tǒng)計發(fā)現(xiàn),幾乎所有的主題熱度與相關(guān)個股走勢均趨于同步性。僅僅依據(jù)主題熱度這樣一個同步指標(biāo),我們很難對主題做出擇時的判斷,因?yàn)樵谀撤N程度上基于主題熱度投資和基于股價本身投資是一樣的。對于主題熱度,我們更多的是從事件投資、突發(fā)新聞、主題炒作后相關(guān)股票超漲超跌的現(xiàn)象入手進(jìn)行分析。具體分析大家可以參考我們后續(xù)的專題報告。 4. 在冷門股中尋找投資機(jī)會 格雷厄姆認(rèn)為“冷門股中的投資機(jī)會更多"。他的理由是,這些冷門股由數(shù)量化專題報告于缺乏市場的關(guān)注,價格遠(yuǎn)遠(yuǎn)滯后于其統(tǒng)計表現(xiàn),但是一旦該股票受到關(guān)注,結(jié)果可能完全相反,公司的業(yè)績將最大限度地反映到股票價格上。同時,《彼得〃林奇的成功投資》中也提到:“如果說有一種股票我避而不買的話,它一定是最熱門行業(yè)中最熱門的股票,這種股票受到大家最廣泛的關(guān)注,投資者上下班途中在汽車上或在火車上都會聽到人們談?wù)撨@種股票,一般人往往禁不住這種強(qiáng)大的社會壓力就買入了這種股票?!?/p> 基于上述理論,我們來探索 A 股中是否存在這樣的冷門股、熱門股效應(yīng)。冷門股是指那些較少為人問津、很少被投資者關(guān)注并且公司名稱少有耳聞的股票。這些股票的一個重要特征是它所對應(yīng)的網(wǎng)絡(luò)論壇不活躍,因此網(wǎng)絡(luò)論壇的活躍度能夠直觀的反映股票的冷熱門程度。具體的操作方法是:我們統(tǒng)計每個股票所屬的子論壇下每日新發(fā)貼的數(shù)量,我們認(rèn)為那些新發(fā)帖量較大的股票屬于相對熱門的股票,而那些新發(fā)帖量較小的股票屬于相對冷門的股票。我們僅按照發(fā)帖量的數(shù)據(jù)將所有股票劃分為5 組,組 1 是所有股票中發(fā)帖量最低的20%,組 5 為所有股票中發(fā)帖量最高的 20%,組 2,3,4 為依次遞增,然后我們按月進(jìn)行調(diào)倉,每組內(nèi)等權(quán)配置,得到 5 組從 2008 年 6 月至今的各組累積收益率如下: 從圖 4 中,我們看出基于論壇中的發(fā)帖量數(shù)據(jù)具有很好的區(qū)分度以及單調(diào)性;Q1,也就是發(fā)帖量最小的 20%的股票組合,具有非常穩(wěn)定的超額收益;Q5,也就發(fā)帖量最大的 20%的股票組合,穩(wěn)定的跑輸基準(zhǔn)。這就是說明冷門股以及熱門股效應(yīng)在 A 股中也同樣是存在的。 還有一個需要特別注意的細(xì)節(jié):到底應(yīng)該選用多久一段時間內(nèi)的文本進(jìn)行計算?我們的研究結(jié)果顯示,如果選取最近 3 個月至 6 個月的文本數(shù)據(jù),則挑選出的相關(guān)個股基本偏向一些中規(guī)中矩、與主題確定相關(guān)的股票;如果選取較短時間內(nèi)的文本數(shù)據(jù),則挑選出的會是一些新近才與主題產(chǎn)生聯(lián)系、相關(guān)性不確定的個股,且這些股票的波動性也非常大。 綜上所述,我們認(rèn)為標(biāo)的挖掘有以下幾個用途:1)新主題出現(xiàn)時,迅速地定位出和這些主題相關(guān)的個股;2)對舊主題,能夠量化主題和個股之間的相關(guān)性,在主題投資時對個股進(jìn)行精選;3) 實(shí)時維護(hù)一個與主題相關(guān)性最大個股的組合。 6. 年年歲歲花相似 本節(jié)主要試圖闡明這樣一個道理:任何一樁能夠引起投資者關(guān)注的事件必然會帶來超額收益,這部分超額收益來源于投資者關(guān)注的溢價。如果這個事件的發(fā)生具有周期性,則我們可以基于其過去的表現(xiàn)來確定下次該事件來臨時的操作策略,從而獲取收益。這里所指的事件定義非常廣泛,只要是能夠引起投資者關(guān)注的,并且是周期性發(fā)生的,均可以稱為事件。 以“中國國際機(jī)器人展覽會”為例,該展會是目前國內(nèi)水平最高、規(guī)模最大、專業(yè)化程度最高的機(jī)器人專業(yè)展,目前已經(jīng)舉辦了 3 屆。2012 年舉辦的時間為 7 月 3 日,2013 年舉辦時間為 7 月 2 日,2014 年舉辦時間為 7 月 9 日。 首先我們仿照主題熱度的指標(biāo),在論壇的文本數(shù)據(jù)中去搜尋該博覽會被投資者所關(guān)注的熱度指標(biāo),如圖 7。 從圖 7 中可以看出,在該展覽會召開前,已經(jīng)陸續(xù)有投資者在網(wǎng)絡(luò)論壇提到該展覽會,而且大量的提及時間點(diǎn)集中于召開前一個月。這說明該事件是能夠吸引大量投資者關(guān)注的,而且投資者的關(guān)注是在展覽會召開前一個月逐漸增多。接下來我們分析三屆會議召開前 20 個交易日到召開后 20 個交易日內(nèi),機(jī)器人主題指數(shù)相對于滬深 300 的超額收益的累積情況如圖 8 所示。 從圖 8 中可以看出,每次在該展覽會前 20 個交易日到展覽會召開當(dāng)日均有一定的超額收益,在 2013 年、2014 年的時候有近10%的超額收益,2012 年的時候有 6%左右的超額收益,并且這些超額收益在展覽會召開后慢慢消減至 0(2013 年因?yàn)槠渌睦枚鴮?dǎo)致了一定的偏差)。那么基于這個數(shù)據(jù),在 2015 年 7 月 8 日該展覽會再次召開之前 20 個交易日,我們可以考慮投資這樣一個事件。當(dāng)然我們也可以根據(jù)上一節(jié)中介紹的主題相關(guān)個股標(biāo)的挖掘法,來精選機(jī)器人主題的個股。 上述例子也闡述了立足于文本數(shù)據(jù)構(gòu)造泛事件投資的基本框架,即: 1)確定該事件能否引起投資者關(guān)注以及確定具體的關(guān)注時段; 2)探索事件發(fā)生的歷史規(guī)律,如影響個股、收益變化等; 3)基于歷史規(guī)律,確認(rèn)事件再次來臨時的操作策略。 責(zé)任編輯:張文慧 |
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān)。本網(wǎng)站對文中陳述、觀點(diǎn)判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。
本網(wǎng)站凡是注明“來源:七禾網(wǎng)”的文章均為七禾網(wǎng) m.yfjjl6v.cn版權(quán)所有,相關(guān)網(wǎng)站或媒體若要轉(zhuǎn)載須經(jīng)七禾網(wǎng)同意0571-88212938,并注明出處。若本網(wǎng)站相關(guān)內(nèi)容涉及到其他媒體或公司的版權(quán),請聯(lián)系0571-88212938,我們將及時調(diào)整或刪除。
七禾研究中心負(fù)責(zé)人:劉健偉/翁建平
電話:0571-88212938
Email:57124514@qq.com
七禾科技中心負(fù)責(zé)人:李賀/相升澳
電話:15068166275
Email:1573338006@qq.com
七禾產(chǎn)業(yè)中心負(fù)責(zé)人:果圓/王婷
電話:18258198313
七禾研究員:唐正璐/李燁
電話:0571-88212938
Email:7hcn@163.com
七禾財富管理中心
電話:13732204374(微信同號)
電話:18657157586(微信同號)
七禾網(wǎng) | 沈良宏觀 | 七禾調(diào)研 | 價值投資君 | 七禾網(wǎng)APP安卓&鴻蒙 | 七禾網(wǎng)APP蘋果 | 七禾網(wǎng)投顧平臺 | 傅海棠自媒體 | 沈良自媒體 |
? 七禾網(wǎng) 浙ICP備09012462號-1 浙公網(wǎng)安備 33010802010119號 增值電信業(yè)務(wù)經(jīng)營許可證[浙B2-20110481] 廣播電視節(jié)目制作經(jīng)營許可證[浙字第05637號]
技術(shù)支持 本網(wǎng)法律顧問 曲峰律師 余楓梧律師 廣告合作 關(guān)于我們 鄭重聲明 業(yè)務(wù)公告
中期協(xié)“期媒投教聯(lián)盟”成員 、 中期協(xié)“金融科技委員會”委員單位