data.gov.tw 資料整理

編輯歷史

時間 作者 版本
2017-07-03 08:48 (unknown) r2
顯示 diff
- data.gov.tw 資料整理
+ data.gov.tw 資料整理
*以下資料感謝Ronny大神提供!!!!!!!
(90 行未修改)
2017-07-01 15:03 – 15:03 (unknown) r0 – r1
顯示 diff
+ data.gov.tw 資料整理
+ *以下資料感謝Ronny大神提供!!!!!!!
+
+ 這邊列出一些 data.gov.tw 資料整理的情況,列為給國發會的參考
+
+ 整理規則
+ *總資料數 13545 筆
+ *先篩選有包含
+ *XML, JSON, RSS
+ *CSV, ODS, EXCEL, XLS, XLSX
+ *SHP, KML, KMZ
+ *ZIP / RAR / 7Z 解開來看
+ *完全不包含以上檔案之資料組,濾掉 2858 個 (剩下 10687 個)
+ *https://worker1.sheethub.net/~srwang/data.gov.tw/no-support-format.csv
+ *包含預算、決算、結算、會計等資料集
+ *這些格式都超不統一又很不 table ,但說他們不 machine readable 也不是,因為它們都是 XML 為主,這些跳過不處理
+ *包含預算、決算、會計等文字資料有 3274 個(剩下 7413 個)
+ *感覺就是拿來湊數用的.....
+ *https://worker1.sheethub.net/~srwang/data.gov.tw/stats.csv
+ *針對 CSV 先處理 ,一共有 5031 個
+ *CSV 檢查
+ *欄位:
+ *不能超過 128 欄 (超過的話有可能是解析錯誤)
+ *不能有亂碼 (亂碼的檢查方式是把資料轉成 Big5 再轉成 UTF-8 要能不變)
+ *不能有純數字 (不過會有例外,假如欄位是年份,而且寫成 2001, 2002, 2003, 2004 ....)
+ *不能過長 (檢查方式,超過 64 bytes ,可能就是根本就不是 CSV)
+ *不能重覆
+ *不能有空白
+ *值:
+ *數量不能比欄位數多
+ *
+
+
+ *http://data.gov.tw/node/11395
+ *上櫃公布注意股票資訊
+ *Excel 匯出的 CSV,CSV 內還包含其他資訊
+ *http://data.gov.tw/node/11369
+ *上櫃股票市場現況
+ *不是 sheet 型式,應該要另外客製每天抓
+ *http://data.gov.tw/node/11628
+ *上櫃股票熱門股證券商進出排行
+ *Excel 轉出來的,欄位名稱有兩排....
+ *http://data.gov.tw/node/11627
+ *上櫃股票現股當沖交易統計資訊
+ *Excel 轉出來的,裡面混合了兩張 sheet
+ *http://data.gov.tw/node/11857
+ *上櫃股票自營商買賣超彙總表
+ *欄位名稱跟值對不上
+ *http://data.gov.tw/node/11259
+ *體育署政策宣導相關廣告執行情形
+ *看起來不是好的程式產生的 CSV ,有的內容被逗點分開造成欄位混淆
+ *http://data.gov.tw/node/9462
+ *http://data.gov.tw/node/9463
+ *中華民國一百零三年政府行政機關辦公日曆表
+ *只是把日曆的 Excel 轉成 CSV... 變超爛的 CSV
+ *http://data.gov.tw/node/11695
+ *http://data.gov.tw/node/11696
+ *http://data.gov.tw/node/11697
+ *http://data.gov.tw/node/11698
+ *信用卡國內清算金額及筆數
+ *還有備註
+ *http://data.gov.tw/node/11602
+ *個股類全市場部位限制
+ *還插了一個日期資訊在第二行是怎樣
+ *http://data.gov.tw/node/12079
+ *入境行李運送總數
+ *也是將 Excel 轉出來成 CSV 的,欄位有兩欄
+ *https://sheethub.com/data.gov.tw/公司登記家數及實收資本額異動─按縣市別分
+ *公司登記家數及實收資本額異動─按行業別分
+ *欄位有點髒
+ *http://data.gov.tw/node/11873
+ *欄位名稱標錯,出現兩個「漲停價」
+ *http://data.gov.tw/node/7529
+ *Excel 轉的 CSV
+ *http://data.gov.tw/node/12982
+ *很多公司重覆兩次
+ *http://data.gov.tw/node/11660
+ *http://data.gov.tw/node/11590
+ *兩個 csv 交錯出現 orz
+ *http://data.gov.tw/node/13629
+ *很難 parse 的 xls (不過感謝至少沒有轉成 csv XD)
+ *http://data.gov.tw/node/13733
+ *用到合併儲存格
+ *http://data.gov.tw/node/8154
+ *一點都不髒,只是因為 rar 裡面放了很多 csv ,需要另外處理
+
+ TODO
+ *https://sheethub.com/data.gov.tw/%E4%BD%8F%E5%AE%85%E5%9C%B0%E9%9C%87%E9%9A%AA%E7%B4%AF%E7%A9%8D%E8%B2%AC%E4%BB%BB%E9%A1%8D(%E8%B2%A1%E5%9C%98%E6%B3%95%E4%BA%BA%E4%BD%8F%E5%AE%85%E5%9C%B0%E9%9C%87%E4%BF%9D%E9%9A%AA%E5%9F%BA%E9%87%91)
+ *應該是有機會可以程式解決的 XML
+ *https://sheethub.com/data.gov.tw/%E5%85%A8%E5%9C%8B%E5%A4%A7%E5%AE%A2%E8%BB%8A%E7%A6%81%E8%A1%8C%E8%B7%AF%E6%AE%B5
+ *有 KMZ 可以倒
+ *