(奇摩原貼:2012/03/16)
我自己對計量操作的定義如下:
針對市場設計數量化的操作管理模型,並藉助資訊科技 (IT) 運算的結果為主導在市場上進行交易,企圖用資料探勘(data mining)的概念,通過對歷史數據的統計與歸納,找出金融產品價格、市場籌碼、技術指標間變化的計量關係,從而發現市場存在的獲利機會,並通過槓桿比率進行交易獲利
上次在 [還在用石器時代的武器作戰嗎? ] 一文裡, 曾經讓大家聞香過幾種即時更新系統, 那算是最後上場拿的武器, 在此之前的後勤整備功夫都沒提到, 尤其是交易策略的發掘與回測部分, 更關乎計量操作的未來績效展現; 這一篇用IT專用名詞資料探勘 (data mining) 的說法, 是 CRoss Industry Standard Process for Data Mining (CRISP-DM) 定義 modeling phase 的前一步 --- data preparation phade (資料準備階段)
現在已經有許多期商提供的下單軟體, 可以做到交易策略的回測 (ex: 永豐 eLeader), 但是僅限於現貨指數或是台指期貨, 好像沒有一家可以去做選擇權策略的回測 (如果有的話, 麻煩通知我一下, 讓我知道自己獨力去做有多蠢 ), 更別說可以從OP資料裡找出可能的交易 pattern了, 因此要辛苦地自己去期交所下載OP資料, 並且把資料吃進電腦裡囉
首先必須在電腦上安裝個人用的免費資料庫軟體 (OP資料量粉大, 用DBMS處理效率最好), 我用的是微軟好心提供的 SQL Server Express 2012, 配上我最拿手的 Structured Query Language 便如虎添翼了
安裝好之後, 用它的 Management Studio 去連線資料庫
接下來要連到期交所去下載OP資料, 只能一個月一個月地下載, 這是它的限制, 沒有閒功夫且願意花錢的人, 可以直接向期交所購買
我只下載最近五年的資料, 覺得相對有參考性, 並且據說自2007年開始期權交易量大增後, 大家的交易行為有顯著地改變, 這讓五年之前的資料更不具參考價值
雖說只有五年的資料量, 但下圖可以看到筆數已經超過31萬筆, 不用DBMS怎麼做這麼龐雜的分析呢?
另外別忘了把台指期貨的資料也下載和轉入資料庫裡面, 還好只有6千多筆, 相較於31萬筆是小意思了
好心提醒大家吃進來的資料, 最好加上兩個欄位 --- 上一交易日 & 下一交易日, 因為我們日後要進行的知識發掘與回測驗證, 都類似IT科目(資料結構, data structure) 裡講的 tree node traversal, 但關聯式 (relational)資料庫沒有所謂的 tree node 概念, 是以加上這兩個欄位, 可以做到類似 doubly linked list, 對在關聯式資料庫裡做 traversal 有絕大的幫助; 加欄位也不用去考慮有甚麼data redundant的問題, 因為在data warehouse的觀念裡, 效率. 維度與正確性才是重點
至於這新增的欄位內容, 可以寫個有 sub-query 的 SQL statement去完成, 只是要考量到資料量有31萬筆, 寫法必須注意執行效率, 否則可能跑三天都跑不出答案, 我寫的只需1分鐘內便全部執行完畢, 粉得意!
或許有些IT的同好對我上面扯到資料結構. tree node traversal. doubly linked list的概念應用在關聯式資料庫上不以為然, 認為那是不搭軋的東東, 怎麼會一起論述呢? 可能是我喜歡將學過的東西互相貫通與整合吧, 這可是實務與理論兼顧的人才有的經驗式看法, 一直以來在本格神隱的我, 以下就來番個人以前IT背景的簡介 (沒興趣的人大可跳過), 由此可知為啥本格的名字故意取IT了, 原職 IT (Information Technology) ~ 中年自發性轉業 ~ 現職仍是 IT (Individual Trading)
==================================
3/16 20:50
*** 因為老婆大人反應放以下這些圖片有疑慮, 基於 [聽某嘴. 大富貴] 的原理, 遂將它們都移除了, 後面才進來的人, 算是無緣得見囉!
3/17 10:20
*** 老婆大人希望我和以前一樣神隱起來就好, 只能把我全部的IT背景介紹吃掉囉
無緣拜讀前輩得精采過往,但仍尋找到可以前進的目標,自營大的部落格真的是寶山
回覆刪除