2021/09/14

AI 的本質就是做最佳化

延伸閱讀:

https://individual-trader.blogspot.com/2019/03/3-ai.html

https://individual-trader.blogspot.com/2020/11/ai.html

前提聲明: 只侷限針對AI不適合應用於交易範圍, 做主觀的判斷與釐清; 但深信在很多的其他領域(ex: 商業智能business intelligence相關的多維度分析, 影像識別pattern recognition在醫療或保安的導入..等) 真的非常有用!!! 

接下來會對人工智慧 AI 科普半天, 我要導引的結論就是 --> AI 不過是試圖透過資料去做最佳化(所謂的訓練)而已, 根據資料找規則就是典型的資料擬合(data fitting) !!! 既然我們已經知道開發交易策略時, 做參數最佳化有很多陷阱要注意, 最忌諱 curve / data fitting, 是一種要不得的行為, 而這本質就是做最佳化或資料擬合的所謂 AI 科技, 我們真的還要用它來開發交易策略嗎?

所謂人工智慧 AI 便是想讓機器去模擬人類的思考方式, 而人類的思考最常用到的是回歸與分類! 回歸是我們試圖找尋 X 與 Y 兩者的關係, 當我們有大量(假設是 m 個)各式的 X 值和 Y 值資料的時候(即 Xi 和 Yi 有 m 個), 透過觀察分析眾多的(X軸) Xi 資料和(Y軸) Yi 資料如下圖:


當損失函數最小時, 可以做出那條藍色預測線 Y = WX - H (其中 W 代表斜率, H 代表截距); 設每個紅點到藍色預測線的垂直距離(預測失敗的損失)是 ΔYi (實際紅點和預測藍點的差距), 則讓損失函數最小便可以看做 --> 怎樣去找到合適的 Wi 和 Hi 讓 ΔYi 的平方(因為有正負)最小, 這是邏輯上的理解, 損失函數的數學表達當然不止於此. 通常我們會使用梯度下降疊代法(Gradient Descent)去找到合適的Wi 和 Hi, Gradient Descent 的邏輯是利用測試估計值 Wn+1 和最佳值(讓損失函數最小的Wi最佳解)的斜率關係(梯度)下降, 去次次逐漸逼近(疊代)出最佳值, 也就是當 Wn+1 約略等於 Wn 的時候, 我們想要的最佳解 Wi 就出現了

注意以上是只針對 Wi 的最佳化來解說(兩個維度比較好理解), 其實 Wi 和 Hi 是要同時進行最佳化的, 也就是線性回歸求解其實該是三個維度的! 然而我們真實世界要解決的問題很可能更複雜, 不會只是要看 X 和 Y 兩者的關係而已, 更可能想看的是多重變數的之間的關係, 也就是預測式等於 Y = W1X1 + W2X2 + ... + WnXn - H; 那就會變成超過三個維度, 是人類更難理解的多維度, 但反而更適合機器去幫我們做了, 機器找尋那些最佳解的過程被統稱為 [訓練]. 另外, 先前提過人類的思考最常用到的是回歸與分類, 分類的本質仍可視做為類似回歸, 比如上圖的線性回歸可以看成 --> 用藍色線把資料切分成兩大分類

啊! 不是啊! 你說了半天和我平常聽人家說的類神經網路 AI 差很多耶! 類神經網路 (ANNs, Artificial Neural Networks) 大多基於下圖的 M-P 模型 (McCulloch-Pitts model 代表一個神經元)去架構的

先前解釋過的多重變數回歸, 其複雜預測式 Y = W1X1 + W2X2 + ... + WnXn - H; 注意 M-P model  左邊的輸入訊號部分, 不就是 W1X1 + W2X2 + ... + WnXn ? 在右邊的 ϴj (閾值) 就是預測式 Y 裡面的 H, 中間的 NETj (處理單元) 我把它看做找尋最佳解過程(訓練), 再右邊的 f (轉換函數或激活函數)最常用的是 Sigmoid, 也就是類似一種normalization(只映射至 [0,1] 之間). 看到了嗎? 其實和我先前講解回歸是一樣的!!! 


無聊人士可以繼續抗辯, 你講的和我常看到的類神經網路圖不一樣耶 ? M-P model 只是一個神經元, 加多個神經元去多層串連在一起如下圖, 這是你習慣看的 ANNs 了吧?





0 意見 :

張貼留言

.

.
Related Posts Plugin for WordPress, Blogger...