1207 Open Data 為什麼這麼重要

g0v hackath0n | 台灣零時政府第零次動員戡亂黑客松

g0vtw 零時黑手工作中

實價登錄地圖

中央政府預算案 g0v.tw

另外這些熱血人們,現在在做的有:政府標案查詢、立法院公報查詢、立法院議事紀錄查詢、失蹤人口協尋網站(不過我還沒找到相關的網址)。

身為一個自食其力的投資投機者,有的時候我會覺得很麻煩的是,我要蒐集我所需要的總經數據,這些數據分佈於財政部、經建會、勞委會、內政部、關稅總局、中央銀行、台灣證券交易所、台灣期貨交易所、公開資訊觀測站等地。然後每個單位的發表數據方式都不一樣,有些算是比較貼心會提供 .xls 或是 .csv 檔,有些則是還要把新聞稿抓下來,然後自己抓數據手動輸入...

就如同實價登錄地圖遇到的最大問題其實是怎麼從政府網站的公開資訊中抓取所需的數據,並且確保其正確;我在嘗試抓取這些數據的時候,如果我要使用自動化抓取,我必需要自己不斷去點開這些,針對每個政府網站去寫 bot 跟 parser 。然後更機車的是,每次這些數據的公佈方式跟公佈時間還不見得一樣,變成我可能花了一兩個小時寫了一個 bot ,結果這個 bot 可能過一個月後就變成毫無用武之地。

所以我當時這樣做的時候,我花最多時間的,並不是在分析數據,而是在分析怎麼抓取這些資料然後確保其無誤。

接著,我就發現,這個動作實在比不上我乾脆自己每天點開網站,抓取並且手動輸入所需數據,然後自己進行分析。本來還想說如果行有餘力,可以經營一個相關的總經數據觀察網站的;結果我後來就乾脆藏私了,畢竟我如果一天一個月沒有更新數據,實在也沒有關係,但是如果要經營這樣的網站,花費的心力實在太大,偏偏這些資訊又很難收費,如果不能自動化抓取把心力花在開發加值型服務的話,我成本壓不下來又沒固定資金流入,怎麼看都是賠錢生意。除非先闖出名號然後開始收費。

殺頭生意有人作、賠錢生意就別想要我作。

而不管在什麼地方,資訊不對稱一直是傷害荷包的最大殺手。例如說,股票投資的時候媒體總是會有很多消息,有些是故意誇大某方面的數據,例如說因為季節性因素,每個月營收通常是進行「同比(或稱年比、YoY)」而不是進行「環比(或稱月比、MoM)」。但是我們經常會聽到某公司營收月增長多少這種消息,可別立刻以為是利多,因為可能年成長是負成長的,這表示這間公司還是長期衰退中。

如果能夠有一個介面可以讓我們抓取所需的數據進行質化的分析,其實就會好很多。之後就是各家可以自己提供各自的解讀方式,然後每個研究模型、解讀方式只要建構好模組、靠著政府公開且容易取得的這些正確資訊,一按下去,就可以簡單進行各樣分析、研究,甚至讓人理解現在經濟到底出了什麼問題都是很容易的。

而只要能夠建構出這樣的機會,自然會有新興的電子資訊行業出現。因為每個人都可以輕易地為這些數據產生加值服務,自然許多自認為不得志、且有志於資訊服務業的工程師們會自然地往這些新興領域移動。在政府數據上取得相關產業營運的經驗後,懂得要怎麼蒐集所需的資訊的情況下,要開始自己蒐集數據、資訊,然後開創更新的其他加值資訊服務就會更加容易,台灣的產業轉型也許就能跟上世界,從硬體製造變成軟體、資訊應用。

這些,其實都是好處。不過基本上,我不太認為政府能夠有這麼大的心胸,不維護財團的利益,而努力讓中小型企業發展吧。

Comments

comments powered by Disqus