作者 | 石川 公眾號特約作者
前六期傳送門:
【系列55】
【系列53】
【系列52】
【系列51】
今天,繼續(xù)我們的機器學(xué)習(xí)應(yīng)用量化投資系列。本期我們再介紹一篇公眾號特約作者石川的文章,為大家深入講解機器學(xué)習(xí)和投資之間的關(guān)系。
“
The essence of data snooping is that focusing on interesting events is quite different from trying to figure out which events are interesting.
譯:關(guān)注有趣的事件與弄清楚哪些事件是有趣的是兩碼事,這就是數(shù)據(jù)遷就的本質(zhì)。
”
前言
最近,一條新聞引爆了投資圈:世界上最大的投資管理公司貝萊德(BlackRock)宣布將使用機器(確切的說是人工智能 artificial intelligence 或機器學(xué)習(xí)算法 machine learning algorithm)來取代一些基金經(jīng)理進行選股。近年來,隨著其在人臉識別,信用反欺詐乃至國際象棋和圍棋領(lǐng)域的應(yīng)用和杰出表現(xiàn),人工智能被越來越多的人所熟悉。很多人開始看好在不久的將來機器學(xué)習(xí)算法在二級市場投資上將會比人取得更加優(yōu)異的成績。而貝萊德的這一宣布無疑將人工智能又一次推上了風(fēng)口浪尖。這其中最根本的觀點是:
機器學(xué)習(xí)通過可以使用復(fù)雜的各種非線性算法(比如神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法)來從大量的歷史交易數(shù)據(jù)中挖掘出人類無法看到的投資模式。根據(jù)這些模式來選股就可以取得豐厚收益。
雖然身處并堅定地看好量化投資領(lǐng)域,但我對“機器學(xué)習(xí)在選股上能取代人類”這個觀點上持保守和謹慎的態(tài)度。這是因為金融分析屬于非實驗性科學(xué)(nonexperimental science),因此無法進行對照實驗(scientific control或controlled experiments)。這意味著雖然存在大量的金融交易數(shù)據(jù),但是無法通過設(shè)計實驗來控制自變量的變化、通過重復(fù)性試驗來檢驗提出的假設(shè)(比如說機器學(xué)習(xí)發(fā)現(xiàn)的某種選股模式)。如此的數(shù)據(jù)分析得到的大多是看似顯著但實際上是欺騙式的模式(尤其對樣本外數(shù)據(jù)),這個現(xiàn)象稱作數(shù)據(jù)遷就(data snooping)。
數(shù)據(jù)遷就(data snooping):從數(shù)據(jù)中挖掘子虛烏有的模式(finding patterns in the data that do not exist)。
數(shù)據(jù)遷就問題存在于所有的非實驗性研究中,而當(dāng)我們把復(fù)雜的機器學(xué)習(xí)算法用于選股時,這種問題尤甚。這是因為復(fù)雜的非線性算法中包含大量的參數(shù),通過這些參數(shù)的配合總能發(fā)現(xiàn)一些人類無法理解的、可以獲得超額收益的選股模式。如果不能正確地理解并從業(yè)務(wù)上解釋這些模式,數(shù)據(jù)遷就將使復(fù)雜的機器學(xué)習(xí)算法成為從歷史數(shù)據(jù)中發(fā)現(xiàn)無效巧合的高效工具,正如本文開頭的引用所說的那樣。
使用偽素數(shù)選股
來看一個和股票八竿子打不著的選股算法。傳統(tǒng)的基金經(jīng)理恐怕絞盡腦汁也想不出這么個模式,但是機器學(xué)習(xí)算法可以輕易地(但是錯誤地)找出它。這個算法利用了素數(shù)(質(zhì)數(shù))的一個性質(zhì),它來自費馬小定理的一個變種:除了 2 之外,任何一個素數(shù) x 滿足“2 的 x-1 次方被它自身除的余數(shù)為 1”。
舉個例子,13 是一個素數(shù),2 的 13-1(即 12)次方等于 4096。用它除以 13 得到 315,余數(shù)為 1。可以證明,所有 2 以外的素數(shù)都滿足這個性質(zhì)。但是滿足這個性質(zhì)的數(shù)不一定都是素數(shù),它們被稱為偽素數(shù)(又稱為卡邁克爾數(shù))。一萬以內(nèi)的偽素數(shù)有七個:561,1105,1729,2465,2821,6601,以及 8911。我們利用這些偽素數(shù)來對美股進行選股:選擇股票編號中包含上述偽素數(shù)的股票進行投資。按照這個規(guī)則,Ametek公司(一個制造企業(yè),股票編號03110510)脫穎而出。更令人稱奇的是,它在過去 40 年取得了 95 倍的累計收益,遠超道瓊斯工業(yè)或標普 500 指數(shù)。
毫無疑問,這是一支非凡的股票,而我們的偽素數(shù)策略取得了巨大的成功。然而, 先別急著激動。我們需要好好審視一下:偽素數(shù)和選股到底有什么關(guān)系?答案是沒有關(guān)系。那么這個策略是否真正找到了有效的選股模式?答案也是否定的。
有些人會馬上跳出來說“只要管用就行,為什么有用不重要!”。這種認知是非常危險的。對于選股這種非實驗性問題,由于無法通過對照實驗來檢驗假設(shè),那么至少從業(yè)務(wù)上明白機器學(xué)習(xí)的算法為什么有效就顯得格外重要。因此,“只要管用就行”是非常不負責(zé)任的態(tài)度。
這個例子代表了很多機器學(xué)習(xí)算法的問題:我們總可以使用復(fù)雜的非線性算法(比如神經(jīng)網(wǎng)絡(luò))、通過過度優(yōu)化參數(shù)發(fā)現(xiàn)回測中無敵的選股模式。在這個過程中,我們已然落入了數(shù)據(jù)遷就的陷阱。
認知偏差加劇數(shù)據(jù)遷就
在以下這些條件下很容易發(fā)生數(shù)據(jù)遷就問題,很顯然它們都存在于二級市場投資中
1. 存在大量的數(shù)據(jù)。
2. 很多人都在使用同樣的數(shù)據(jù)進行分析。
3. 缺乏業(yè)務(wù)理論或者無法控制變量。
4. 認知偏差“只要管用就行,為什么好使不重要”。
這其中前三條是市場的客觀條件,而最后一條則植根于人們的認知錯誤。人類認知中總是傾向于追尋不同尋常的事件。只有當(dāng)一些“不同尋?!钡那珊习l(fā)生時,我們才往往能關(guān)注到。瑞士心理學(xué)家榮格將人們對巧合的過度關(guān)注稱為共時性(synchronicity)。
共時性:指“有意義的巧合”,用于解釋因果律無法解釋的現(xiàn)象,如夢境成真,想到某人某人便出現(xiàn)等(“說曹操、曹操到”)。榮格認為,這些表面上無因果關(guān)系的事件之間有著非因果性、有意義的聯(lián)系,這些聯(lián)系常取決于人的主觀經(jīng)驗。當(dāng)兩者同時發(fā)生時,便稱為“共時性”現(xiàn)象。
通俗的說,當(dāng)在時間和空間上毫無聯(lián)系的兩件事同時發(fā)生時,人們便會認為有一種超自然的神秘力量把它們聯(lián)系在一起,并認為這種巧合具備某種意義。
比如在上面的例子中,股票標碼含有偽素數(shù)和股票獲得了巨大的超額收益就是一個純粹的巧合,這樣的巧合被機器學(xué)習(xí)算法發(fā)現(xiàn)并呈現(xiàn)給使用者。如果使用者不試圖去理解這兩者到底是否真的有關(guān)系,便會由于共時性而將這種錯誤的巧合賦予某種意義,即機器學(xué)習(xí)發(fā)現(xiàn)了一個牛逼哄哄的選股模式。
運氣還是實力
前面說了這么多,目的當(dāng)然不是為了否定人工智能和機器學(xué)習(xí)在二級市場的應(yīng)用前景。
但我想說,對于人工智能發(fā)現(xiàn)的任何模式,它有效的前提是我們能夠明白無誤的理解它的含義。不能以此為基礎(chǔ)便無法分辨出好的結(jié)果到底是來自運氣還是實力。
我們使用順序統(tǒng)計量(order statistic)解釋了這樣一個道理:
在眾多股票中,最好的那支總會有非常優(yōu)秀的收益率;在眾多的策略中,最厲害的那一個總會帶來令人稱奇的回報率。然而,通過計算獨立樣本的極值(順序統(tǒng)計量)分布可知,這種結(jié)果實屬必然。
假設(shè)一個股票投資策略的年化收益率 X 符合均值為 10%,標準差為 20% 的正態(tài)分布。假設(shè)市場中有 m 個不同的策略,則它們中最好的那個的收益率 Y 是 X 的函數(shù),Y = max(X1, X2, …, Xm)。下圖是當(dāng) m = 3000 時,最好的那個的收益率分布和單一策略收益率分布的比較:最優(yōu)策略的收益率分布在橫坐標上向右移動且變的更窄。
下圖為 prob(Y≥0.7) 隨策略個數(shù) m 變化的結(jié)果。同時也給出了 Y 的均值和標準差隨 m 的變化。隨著 m 的增大,我們越來越確定總會有一些策略脫穎而出,年化收益率超過 70%。這種判斷也同樣可以被 Y 的均值和方差來證明:隨著策略個數(shù)的增大,最優(yōu)策略的年化收益率的均值在增加,且標準差在減小。
這個結(jié)果說明,當(dāng)存在大量不同的策略時,最好的那一個總會異常非凡。但我們真正關(guān)心的問題是:這個策略到底是在茫茫歷史數(shù)據(jù)中找到了虛假的模式,還是發(fā)現(xiàn)了一套真正的科學(xué)投資模式?我們必須從業(yè)務(wù)層面弄清楚它是如何工作的。
"As with any black box, if you don't know why it works, you won't realize when it's stopped working. Even a broken watch is right twice a day".
譯:機器學(xué)習(xí)算法猶如一個黑匣子,如果你不知道它為什么好使,你就不會知道它何時回失效。就連一塊停擺的手表每天也能正確兩次。
人工智能前路漫漫
其實,人們使用算法來選股并不是什么新鮮事。風(fēng)險多因子模型就可以算是一個算法選股的策略。當(dāng)然,它之所以有效是因為它使用的因子,比如成長因子、規(guī)模因子、動量因子等,都有著清晰的業(yè)務(wù)基礎(chǔ)。近幾年,很多人使用機器學(xué)習(xí)的復(fù)雜算法,比如支持向量機,來改進多因子選股。這些非線性算法構(gòu)建了很多非線性的因子。比如,如果算法告訴我們“雄安概念板塊,且對數(shù)市值 ÷ 三個月動量的 e 次方大于 π”是一個好的模式,那我們就得好好琢磨琢磨了。
對于人工智能在二級市場投資的應(yīng)用,一位具有豐富實戰(zhàn)經(jīng)驗的量化投資前輩闡述過如下的觀點,我對此十分認可:
"我們可以相信它(人工智能)能夠捕獲到那些人類根本無法察覺到的細微模式。但是這些模式能夠持續(xù)嗎?這些模式會不會只是一些不會重復(fù)的隨機噪聲?人工智能領(lǐng)域的專家向我們保證他們有許多防范措施用以過濾那些瞬間噪聲。并且,這些工具確實在消費者營銷和信用卡欺詐檢測上效果顯著。消費者行為和詐騙行為的模式顯然都具有較長的持續(xù)期,這使得這些人工智能算法即使包含大量參數(shù)也能有效運行。然而,以我的經(jīng)驗來看,要對金融市場進行預(yù)測,這種防范措施是遠遠不夠的,并且對歷史數(shù)據(jù)噪聲的過度擬合還會帶來嚴重后果。……相對于可以獲取的大量相互獨立的消費者行為和信用交易數(shù)據(jù),我們能夠獲取的在統(tǒng)計學(xué)意義上相互獨立的金融數(shù)據(jù)是非常有限的。你可能會說,我們擁有大量分時金融數(shù)據(jù)可供使用。但實際上,這些數(shù)據(jù)是序列相關(guān)的,并不是相互獨立的。"
這位前輩對于人工智能何時有效給出了自己的見解:
1. 基于正確的計量經(jīng)濟學(xué)或理論基礎(chǔ),而不是隨機發(fā)現(xiàn)的模式。
2. 所需的參數(shù)用到歷史數(shù)據(jù)較少。
3. 只用到線性回歸,并未使用復(fù)雜的非線性函數(shù)。
4. 概念上很簡單。
5. 所有優(yōu)化都必須在不含未來未知數(shù)據(jù)的移動窗口中實現(xiàn),并且這種優(yōu)化的效果必須不斷地被未來未知的數(shù)據(jù)所證實。
策略的規(guī)則越多,模型的參數(shù)越多,就越有可能發(fā)生數(shù)據(jù)遷就。能經(jīng)得起時間考驗的往往是簡單的模型。
再來看貝萊德的決定
作為全球最大的資產(chǎn)管理公司,貝萊德宣布使用人工智能代替基金經(jīng)理無法令人忽視,且必然會一石激起千層浪。有機構(gòu)預(yù)測,到 2025 年,全球金融機構(gòu)將有 10% 的人工會被機器取代。這恐怕和越來越高昂的 alpha 不無關(guān)系。畢竟,從長期來看,絕大多數(shù)基金經(jīng)理都跑不贏指數(shù),那么要這些基金經(jīng)理還有什么用呢?
引用我的合伙人高老板的話也許可以更好的理解貝萊德的這個決定:
“
超額收益越來越貴,開源不行,就想辦法節(jié)流。最終投資市場的均衡狀態(tài)是超額收益的邊際成本恰好等于超額收益。這樣成本高的投資基金終將不斷被成本低的基金擠出市場。
”
轉(zhuǎn)載請注明來自夕逆IT,本文標題:《2025年企業(yè)出海丨odi備案登記之發(fā)改委監(jiān)管政策解讀》

還沒有評論,來說兩句吧...