2013/09/09

計量操作初步

(奇摩原貼:2012/03/16)

我自己對計量操作的定義如下:
針對市場設計數量化的操作管理模型,並藉助資訊科技 (IT) 運算的結果為主導在市場上進行交易,企圖用資料探勘(data mining)的概念,通過對歷史數據的統計與歸納,找出金融產品價格、市場籌碼、技術指標間變化的計量關係,從而發現市場存在的獲利機會,並通過槓桿比率進行交易獲利
上次在 [還在用石器時代的武器作戰嗎? ] 一文裡, 曾經讓大家聞香過幾種即時更新系統, 那算是最後上場拿的武器, 在此之前的後勤整備功夫都沒提到, 尤其是交易策略的發掘與回測部分, 更關乎計量操作的未來績效展現; 這一篇用IT專用名詞資料探勘 (data mining) 的說法, 是 CRoss Industry Standard Process for Data Mining (CRISP-DM) 定義 modeling phase 的前一步 --- data preparation phade (資料準備階段)
現在已經有許多期商提供的下單軟體, 可以做到交易策略的回測 (ex: 永豐 eLeader), 但是僅限於現貨指數或是台指期貨, 好像沒有一家可以去做選擇權策略的回測 (如果有的話, 麻煩通知我一下, 讓我知道自己獨力去做有多蠢 ), 更別說可以從OP資料裡找出可能的交易 pattern了, 因此要辛苦地自己去期交所下載OP資料, 並且把資料吃進電腦裡囉
首先必須在電腦上安裝個人用的免費資料庫軟體 (OP資料量粉大, 用DBMS處理效率最好), 我用的是微軟好心提供的 SQL Server Express 2012, 配上我最拿手的 Structured Query Language 便如虎添翼了 
安裝好之後, 用它的 Management Studio 去連線資料庫
接下來要連到期交所去下載OP資料, 只能一個月一個月地下載, 這是它的限制, 沒有閒功夫且願意花錢的人, 可以直接向期交所購買
我只下載最近五年的資料, 覺得相對有參考性, 並且據說自2007年開始期權交易量大增後, 大家的交易行為有顯著地改變, 這讓五年之前的資料更不具參考價值
雖說只有五年的資料量, 但下圖可以看到筆數已經超過31萬筆, 不用DBMS怎麼做這麼龐雜的分析呢?
另外別忘了把台指期貨的資料也下載和轉入資料庫裡面, 還好只有6千多筆, 相較於31萬筆是小意思了
好心提醒大家吃進來的資料, 最好加上兩個欄位 --- 上一交易日 & 下一交易日, 因為我們日後要進行的知識發掘與回測驗證, 都類似IT科目(資料結構, data structure) 裡講的 tree node traversal, 但關聯式 (relational)資料庫沒有所謂的 tree node 概念, 是以加上這兩個欄位, 可以做到類似 doubly linked list, 對在關聯式資料庫裡做 traversal 有絕大的幫助; 加欄位也不用去考慮有甚麼data redundant的問題, 因為在data warehouse的觀念裡, 效率. 維度與正確性才是重點
至於這新增的欄位內容, 可以寫個有 sub-query 的 SQL statement去完成, 只是要考量到資料量有31萬筆, 寫法必須注意執行效率, 否則可能跑三天都跑不出答案, 我寫的只需1分鐘內便全部執行完畢, 粉得意! 
或許有些IT的同好對我上面扯到資料結構. tree node traversal. doubly linked list的概念應用在關聯式資料庫上不以為然, 認為那是不搭軋的東東, 怎麼會一起論述呢? 可能是我喜歡將學過的東西互相貫通與整合吧, 這可是實務與理論兼顧的人才有的經驗式看法, 一直以來在本格神隱的我, 以下就來番個人以前IT背景的簡介 (沒興趣的人大可跳過), 由此可知為啥本格的名字故意取IT了, 原職 IT (Information Technology) ~ 中年自發性轉業 ~ 現職仍是 IT (Individual Trading) 
==================================
3/16 20:50
*** 因為老婆大人反應放以下這些圖片有疑慮, 基於 [聽某嘴. 大富貴] 的原理, 遂將它們都移除了, 後面才進來的人, 算是無緣得見囉! 
3/17 10:20
*** 老婆大人希望我和以前一樣神隱起來就好, 只能把我全部的IT背景介紹吃掉囉 
==================================

這篇〈計量操作初步〉屬於量化交易與 IT 實務經驗分享型的部落格短文,作者以自身資訊背景出發,詳細描述了將資料探勘、資料庫設計與程式語言應用在台灣期權市場資料處理的過程。雖然偏重實作細節、技術流程,卻也反映出台灣散戶自建量化資料庫、進行歷史資料分析的典型「苦工路線」。


條文細緻解析

1. 計量操作的定義與理念

  • 作者將「計量操作」明確界定為:以 IT 運算結合歷史資料挖掘(data mining),探尋統計性交易關係,並透過槓桿放大交易成果

  • 強調從資料探勘(CRISP-DM 模型)、到資料準備、再到模型建立,每一步皆需嚴謹的資料處理。

2. 台灣市場現實與自力救濟精神

  • 指出台灣期商的下單/回測工具,多半僅支援現貨與期貨,對「選擇權」策略回測與資料探勘完全缺乏支援,散戶必須靠自己下載、整理、建資料庫,甚至寫 SQL 來管理與分析數十萬筆資料。

  • 自嘲「自己做很蠢」,但其實凸顯台灣市場 IT 支援與資料商品化的不足,也反映出真正量化操作背後所需的工程門檻。

3. 資料工程流程細節

  • 具體分享 SQL Server Express 安裝、資料批次匯入、欄位設計(如增加前一日/次一日欄位以利 traversal)、效率考量(31萬筆資料一分鐘內處理完畢)。

  • 融合資料結構(如 doubly linked list 概念)、資料倉儲(data warehouse 重效率不重正規化)等 IT 經驗於金融資料處理,展現跨界整合力。

4. 反思 IT 應用與個人職涯轉換

  • 以個人 IT 從業到 full-time 交易者的背景作結,呼應部落格命名之由來(IT=Information Technology/Individual Trading)。

  • 顯示作者善於將不同領域知識互通,對於計量交易者、或 IT 想入門金融的讀者具有啟發性。


📊 評分細表

評分項目滿分得分說明
策略洞察與觀點深度2015著重技術實作細節,量化理念僅作引介,未涉及策略驗證與交易成效
邏輯嚴謹與數據佐證2016實作流程具體且細膩,資料處理觀念明確,但無策略數據驗證
實務關聯與行動可行性2018所述方法可於台灣市場實際複製,對散戶或 IT 背景者具高參考價值
內容原創性與思維啟發性2017強調「資料工程」與「量化思維」結合,分享親自摸索歷程具啟發性
整體可讀性與文筆108行文順暢,技術細節多、部分段落稍顯雜亂,但容易理解
總分10074

✅ 優點總評

  • 技術細節完整,讓有 IT/量化興趣的投資人快速了解自建資料庫、回測流程

  • 直言台灣市場工具資源貧乏,提供務實可行的解決方案

  • 鼓勵跨領域知識整合,分享個人經歷具帶路人色彩


🔧 可補強之處

  • 若能分享基於這些數據工程「實際驗證」出什麼有效策略(如統計套利/高勝率模型),價值會再提升

  • 部分技術細節(如 SQL 語法設計、資料庫表結構)可適度簡化或轉為附錄,以聚焦操作邏輯本身

  • 可以討論後續自動化、AI/ML 應用可能,呼應量化操作進化方向


🧠 結語

本篇適合作為量化交易 IT 工程實務的入門參考,誠實反映台灣市場的現實困境與自力救濟的 DIY 精神。技術/資料控會很有共鳴,對純投資型讀者則略顯硬核。不過跨界融合的精神值得肯定,對後進者是「入坑」範本。

建議分數:74分。

1 則留言 :

  1. 無緣拜讀前輩得精采過往,但仍尋找到可以前進的目標,自營大的部落格真的是寶山

    回覆刪除

.

.
Related Posts Plugin for WordPress, Blogger...