2013/12/26

[轉貼] 資料探勘的正值偏頗

引用自: 小肥牛 @yahoo blog (關閉了)

所謂「資料探勘的正值偏頗」就是根據過去歷史資料或是經驗所發展出來的策略,它的回測績效一定會過度高估績效與低估 max drawdown。
當一個期貨交易者,開發出或是得到一套系統,第一件事情,就是跑回測,若是看到回測有不錯的績效,可能就開始在想,這個績效每年的投資報酬率有多少,我若是能準備多少金額,以複利的操作績效,多少年後就可以有多少獲利,儼然就要成為巴菲特第二了,但在實戰中,他們發現他們的程式回測績效往往是不可以相信的。

有經驗一點的期貨交易者,會想到程式是否有過度最佳化,於是他會重新檢視程式,儘量去除可能過度最佳化的部分,然後測試是否有參數孤島,若是用心一點的交易程式測試者,可能還會檢測 Walk Forward Analysis,若通過這些檢測,可能會想這樣回測績效應該是可以相信了吧,而且即使績效差一點,只要是賺錢就可以,只是少賺一點,而且我也考慮的歷史的 max drawdown,我的操作資金也是比 max drawdown 還要多,我的風險控制應該沒有問題吧?

的確,通過 參數孤島 與 Walk Forward Analysis 檢測是否有過度最佳化,但我之前的文件有提到,交易系統一定避免不了訊號與系統雜訊,而且市場屬性會隨著時間改變,另外「資料探勘的正值偏頗」,都會讓這些回測績效在未來表現低於你的預期。

為什麼會有「資料探勘的正值偏頗」呢在 David Aronson 的 讓證據說話的技術分析(Evidence Based Technical Analysis)一書中,提到若是有一個程式開發者,他很認真的研究出了50種技術策略,每一個策略並沒有作最佳化,但在測試區間中績效還是會有好有壞,最後他當然是選測試區間是最好的績效策略來操作,而這個「最佳」策略在測試區間中的報酬率為 37%。

但不幸是,他發展的 50 個策略其實都沒有預測功能,也就是每一個期望報酬率是為 0%,但程式開發者並不知道,但因為在測試區間中的平均績效有好有壞,他會用最好績效的策略,並且認為它績效的平均報酬率為 37%,所以有了 37% 的「資料探勘的正值偏頗」。

再舉藍大最近的文章資金曲線模擬器(http://tw.myblog.yahoo.com/Blue-Speculator/article?mid=2627)的例子作一個變化,若是程式開發者開發出四個不同的策略(A,B,C,D),但每一策略平均贏的機率都是40%,而每筆交易贏錢的平均金額是$20,000,而輸錢的平均金額是$10,000。所以每一筆的獲利是 0.4 * 20000 - 0.6 * 10000 = 2000 / 次 就是理論上的預期報酬率。  但這四個相同預期報酬率的不同策略,在回測相同的歷史區間,可能會有差異相當大的回測報酬率,假設不同的策略 A,B,C,D,所產生的回測報酬率就是(http://tw.myblog.yahoo.com/Blue-Speculator/article?mid=2627)的四張圖,對大部分的人,最後應該會選回測報酬率最佳的策略,也就 B 這一個策略,但這個策略的回測報酬率 6000 / 次,也就是 「回測報酬率」與「理論上的預期報酬率」差了三倍。同樣地在回測績效中,也會低估了 drawdown。

因此雖然我們沒有作參數作佳化,我們在開發策略的過程中,已經自動作了策略「選擇的最佳化」。

這篇並不是說回測不重要或是沒有參考價值,而是強調程式交易只是一個工具,使用工具時一定要先了解他們隱藏的風險與陷阱,要用更客觀的態度來看回測績效時,過度相信回測績效可能讓自已曝露太多的風險在市場上。

只有穩賺不賠的回測績效,沒有保證未來一定獲利的策略。 務必做好自已的風險管理。

沒有留言:

張貼留言