[轉貼] 資料探勘的正值偏頗 ~ 自營家 Peter

2013/12/26

[轉貼] 資料探勘的正值偏頗

2013/12/26 上午8:43 演算法交易留言搶頭香 !!!

引用自: 小肥牛 @yahoo blog (關閉了)

所謂「資料探勘的正值偏頗」就是根據過去歷史資料或是經驗所發展出來的策略，它的回測績效一定會過度高估績效與低估 max drawdown。

當一個期貨交易者，開發出或是得到一套系統，第一件事情，就是跑回測，若是看到回測有不錯的績效，可能就開始在想，這個績效每年的投資報酬率有多少，我若是能準備多少金額，以複利的操作績效，多少年後就可以有多少獲利，儼然就要成為巴菲特第二了，但在實戰中，他們發現他們的程式回測績效往往是不可以相信的。

有經驗一點的期貨交易者，會想到程式是否有過度最佳化，於是他會重新檢視程式，儘量去除可能過度最佳化的部分，然後測試是否有參數孤島，若是用心一點的交易程式測試者，可能還會檢測 Walk Forward Analysis，若通過這些檢測，可能會想這樣回測績效應該是可以相信了吧，而且即使績效差一點，只要是賺錢就可以，只是少賺一點，而且我也考慮的歷史的 max drawdown，我的操作資金也是比 max drawdown 還要多，我的風險控制應該沒有問題吧?

的確，通過參數孤島與 Walk Forward Analysis 檢測是否有過度最佳化，但我之前的文件有提到，交易系統一定避免不了訊號與系統雜訊，而且市場屬性會隨著時間改變，另外「資料探勘的正值偏頗」，都會讓這些回測績效在未來表現低於你的預期。

為什麼會有「資料探勘的正值偏頗」呢? 在 David Aronson 的讓證據說話的技術分析(Evidence Based Technical Analysis)一書中，提到若是有一個程式開發者，他很認真的研究出了50種技術策略，每一個策略並沒有作最佳化，但在測試區間中績效還是會有好有壞，最後他當然是選測試區間是最好的績效策略來操作，而這個「最佳」策略在測試區間中的報酬率為 37%。

但不幸是，他發展的 50 個策略其實都沒有預測功能，也就是每一個期望報酬率是為 0%，但程式開發者並不知道，但因為在測試區間中的平均績效有好有壞，他會用最好績效的策略，並且認為它績效的平均報酬率為 37%，所以有了 37% 的「資料探勘的正值偏頗」。

再舉藍大最近的文章資金曲線模擬器(http://tw.myblog.yahoo.com/Blue-Speculator/article?mid=2627)的例子作一個變化，若是程式開發者開發出四個不同的策略(A,B,C,D)，但每一策略平均贏的機率都是40%，而每筆交易贏錢的平均金額是$20,000，而輸錢的平均金額是$10,000。所以每一筆的獲利是 0.4 * 20000 - 0.6 * 10000 = 2000 / 次就是理論上的預期報酬率。但這四個相同預期報酬率的不同策略，在回測相同的歷史區間，可能會有差異相當大的回測報酬率，假設不同的策略 A,B,C,D，所產生的回測報酬率就是(http://tw.myblog.yahoo.com/Blue-Speculator/article?mid=2627)的四張圖，對大部分的人，最後應該會選回測報酬率最佳的策略，也就 B 這一個策略，但這個策略的回測報酬率 6000 / 次，也就是「回測報酬率」與「理論上的預期報酬率」差了三倍。同樣地在回測績效中，也會低估了 drawdown。

因此雖然我們沒有作參數作佳化，我們在開發策略的過程中，已經自動作了策略「選擇的最佳化」。

這篇並不是說回測不重要或是沒有參考價值，而是強調程式交易只是一個工具，使用工具時一定要先了解他們隱藏的風險與陷阱，要用更客觀的態度來看回測績效時，過度相信回測績效可能讓自已曝露太多的風險在市場上。

只有穩賺不賠的回測績效，沒有保證未來一定獲利的策略。務必做好自已的風險管理。

置頂要文

2013/12/26