20141108 gxv 拜訪中研院社會所林宗弘副研究員

編輯歷史

時間 作者 版本
2017-07-03 08:33 (unknown) r2
顯示 diff
- 20141108 gxv 拜訪中研院社會所林宗弘副研究員
+ 20141108 gxv 拜訪中研院社會所林宗弘副研究員
政商關係專案,預計 20141108 (六) 17:10 拜訪中研院社會所企業資料研究單位,當天為 g0v 年會 (9:00-17:00) Che-wei 已和林宗弘老師及助理聯絡,將會整理數據、並視情況安排會議室,歡迎對公司資料、公司關係、政治獻金、政商關係⋯⋯等主題有興趣的 g0vers 參加。
(193 行未修改)
2017-07-01 15:19 – 15:19 (unknown) r0 – r1
顯示 diff
+ 20141108 gxv 拜訪中研院社會所林宗弘副研究員
+
+ 政商關係專案,預計 20141108 (六) 17:10 拜訪中研院社會所企業資料研究單位,當天為 g0v 年會 (9:00-17:00) Che-wei 已和林宗弘老師及助理聯絡,將會整理數據、並視情況安排會議室,歡迎對公司資料、公司關係、政治獻金、政商關係⋯⋯等主題有興趣的 g0vers 參加。
+
+ 感謝林宗弘老師的((熱血))介紹。
+
+ *Todos
+ *11/18 (二) 下午三點,於中研院 copy 資料(2995 家企業資料、13 個變量,dta 檔、excel 檔)
+ *出席者:chewei
+ *本次任務:拿檔案,並請宗弘老師確認流通程度(License)
+ *chewei> 預計建議:CC BY-NC-SA 4.0 http://creativecommons.org/licenses/by-nc-sa/4.0/
+ *不直接用4.0的理由是?
+ *已改 ! (我不曉得有 4.0 @@@!! << 汗)
+ *
+ *[授權課題] 釐清徵信資料的授權課題;資料庫比對勘誤成果(?)可公開,並搭配既有的徵信資料授權服務
+ *chewei 預計整理已被指認的資料集清單與描述及其來源,歸納不同資料集之間 linked 項目,例如「統一編號 id」、「(總經理)姓名」...
+ *[已招募] 中研院企業與社會研究小組招募全職短期,工作內容為台灣企業數據整理,已招募。若有朋友希望參與,可聯繫洽談以時薪工讀方式參加
+ *hi slamky 有需要協助的事情嗎?
+ *有興趣的朋友,12/06-07 台灣社會學年會企業 panel 可以認識研究這領域的學者,活動網址: https://sites.google.com/site/2014tsaam/session
+
+ 關聯專案
+ 本篇文字紀錄出來後,1108 晚間,Torrent 也分享他正在研究的的「企業資料與汙染資料的鏈結」內容與資料課題,汙染廠商之間是否有企業集團關係子孫關係,也是目前需要再釐清的環節,需要較完整的企業關係來作為架構,詳細內容請見:https://g0v.hackpad.com/rInrPBeYd5I
+
+
+ *欲參加者請簽到報名
+ chewei, venev, BP, 張淵智,黃裕盛, Robinn(以下是現場自介重點紀錄,歡迎補完)
+
+ *venev:開放政治獻金、關心政商關係
+ *張淵智:關鍵數據小組,政治所研究生,主修國內貪腐
+ *吳長鋼:關鍵數據小組,林宗弘的經濟系學弟,g0v 蚊子館、貪污搜尋引擎
+ *superbil:政府公開通訊錄,跟 ronny 一起路過的
+ *ronny:蒐集資料愛好者,公司資料、公司關係、關貿進出口
+ *chewei:本次會議主揪
+ *nchild:你被服貿了嗎、議題解讀懶人包師傅
+ *BP:影音技術相關、政商關係專案 venev 技術助理
+ *cicilia:g0v summit 參與者,軟體工程師,自然語言處理工程師(文字理解)
+ *珮瑩:外文、社會、歷史,現在在教育系工作,對社會網絡有興趣
+ *Torrent:Texas A&M University社會所博士生,目前研究台灣高科技產業與污染。目前開設一個 hackpad : 企業資料與汙染資料的鏈結 https://g0v.hackpad.com/rInrPBeYd5I
+
+ *林宗弘老師介紹目前手頭有的資料
+ *2007 中華徵信三百大集團企業(書面資料,無電子檔,用紙本重新輸入),另李宗榮老師則是從訃聞搜尋家族關係(李宗榮老師有電子檔),未來期待親屬網絡與三百大集團合併數據
+ *希望讓「有政商關係」的大企業,和沒有政商關係的中小企業作比較
+ *去年開始找天下雜誌和中華徵信來談
+ *天下雜誌:資料不賣(可能沒整理?)
+ *天下雜誌製造業一千大後來變兩千大,任意擴張篩選來源,篩選方式不透明(可能以營收為主),有口徑不一致問題
+ *跟中華徵信五千大數據比對、補缺
+ *整理出中央研究院「台灣企業排名資料庫」第一版,2995 家企業資料、13 個變量
+ *會後索取看看簡報
+ *2005 年後更改會計規範要合併報表,之後有數據膨脹問題(必須統計到孫公司的帳務)
+ *中華徵信:要求台灣本地員工數;天下雜誌:要求集團總員工數
+ *以鴻海為例,是 6800 多人和129萬多人的差異(主要差異在中國)
+ *這樣就可以比對本土和海外雇員數
+ *這幾年台灣雇用人數都沒動,但海外雇用人數陡峭上升
+ *台灣中小企業的平均利潤率開始降低,但大企業波動較小
+
+ *長鋼補充:之前 open data 年會,高有智先生,有報告過如何做出兩千大,是在每年財報出來之後,找大量工讀生來爬財報
+
+ 宗弘:兩千大有未上市公司,天下雜誌是用傳真機或 e-mail 作業,沒有強制力,所以沒填就沒資料。中華徵信社擁有更完整數據是因為他是徵信社,銀行會跟企業要「徵信證明」,所以資料來源較易和正確性較高
+
+ *1999 年以前,營收超過一億就要公布財報
+ *1999 年以後,沒上市就不用公布財報,所以 no data
+
+ 中華徵信社的資料是用買的,有授權問題
+ 天下雜誌的數據資料是中研院社會所自己工人智慧再整理出來的,應該是可以直接開放授權出來(建議與中研院本所的研究員掛名合作較安全)
+
+ 牛肉!!!曾進出中華徵信五千大的花名冊 excel 檔,共有九千多家
+ *欄位說明
+ *以頂新集團為例
+ *已經是結構數據了
+
+ 下一步?
+ *上個月跟中華徵信討論,想買三百大集團企業(歷年共五百多個)和一千大台商,可以拼湊兩岸企業版圖,及兩岸政商關係
+ *希望要 data 而非查詢權限,但中華徵信不肯,只肯給近三年數據
+ *估計明年年底,以中華徵信為樣本來源的東西才會整理完
+ *短期之內台灣應該不會有其他機構做得出來
+ *初步判斷以有條件公開的方式,來避免可能的授權糾紛,例如相關作品要跟中研院研究員共同掛名,再利用上比較安全。總之目前需要持續釐清法律細節。
+
+ *討論
+ 工讀生做的東西可以用 crowd sourcing 方式加快速度嗎?
+ *林:檢誤問題,傾向用六七個工讀生、兩三個月輸入完畢,兩三個工讀生配合研究助理繼續檢查錯誤
+
+ 台灣前一千大企業佔七成經濟活動(年底可運用資產、全年營收),但雇員只佔全台勞工的三成
+ *台灣大部分的就業人口,還是靠中小企業
+
+ 集團關係是用法人關係?
+ *因為董監事是公司登記資料必須強制登記的,持股必須是
+
+ 可以先做做看天下版的一千大數據:下週跟林老師聯繫拿 excel 檔
+ 中華徵信的五千大版,可能要再等
+
+ 會希望能把海外台商數據也納進來
+ *例如服貿協議的爭議,若是沒有數據什麼屁都講不出來
+ *跟某國貿易額多大 -> 經濟成長會多少
+ *如果真的放任台商企業出去投資,實際台灣就業減少 <- 目前做出來是這樣的預估
+
+ 訃聞數據庫?答案是沒有
+ *親屬網絡數據與細節要找李宗榮老師
+ *估計要一年半~兩年,才能把親屬網絡和商業關係接起來
+ *用台灣十三分報紙數據庫爬出來的
+
+ 能否讓中研院買來的數據,經整理補缺之後,以 open source 方式釋出
+ *有法律上的顧慮,如何解決(問 isabel? ;當日 summit 晚宴有初步請教林誠夏研究員,日後可持續聯繫釐清)
+ *BP:中研院護城河概念:把中研院獨立 effort 的東西以 patch 形式開源釋出;由民間公司買一年查詢權限,加入中研院的 patch,作後續應用
+ *孝先:可以回去查一下,中研院對數據的改善,是否構成編輯著作,取得相關權利
+
+ 另一條途徑:許多企業資料的欄位,除了天下雜誌的單方面詢問企業、徵信業者的徵信資料外,是否政府手上有更直接的資料集,或可回推的數據項目?可以敦促他們 open data
+ *工商普查、國稅局(稅後淨益)
+ *勞動部、健保局會有所有員工數
+ *ronnywang 觀察到規定僱用身障者的法令、比例與裁罰的內容細節,亦可回推該企業的勞動數據
+
+ unconf 的時候,偉宸(?) 補充銀行的聯盟會員有建構一個資料庫,可以查詢個別企業什麼,(糟糕我忘了細節XD",待補)
+ *跟徵信相關嗎?希望聯絡得上偉宸進一步詢問 ^^b
+
+ 認為台灣政府、經濟所應該都沒有這樣的資料
+ 談台灣經濟前途,ECFA、服貿利大於弊,但沒有實證資料在手上,很難信服
+
+ 韓國研究者已經把財團企業商版圖做出來了,還把研究做到台灣來,比對台韓之間大企業所佔的比例,竟發現韓國中小企業比例其實比台灣更高、扮演更大的經濟角色 (此為大意解釋,詳細名詞描述方式待補)
+
+ GDP 灌水失真問題
+ *服務業出口近幾年增長很快,但懷疑是灌水作帳用,例如鴻海賣顧問服務 -> 富士康,成為應付帳款,降低中國的加值稅
+ *在台灣分紅可以逃過中國的稅(但大批現金股利是如何匯入的)
+ *外資法人未必要買中國子公司,可能會在台灣買股票、拿現金股利
+ *生產端作帳部分比較容易理解,因為只有四門;但消費面到底記入哪裡?估計是「服務業輸出」,
+ *(台灣企業在中國製造方面的收入)推測估計讓 GDP 虛胖 2%,所以 GDP 若小於 2 很可能是負成長
+ *服貿的減稅就會減在服務業出口的科目下,這項應收帳款匯入時就不用收稅
+ *兩岸租稅協議還沒有簽,財政部很想簽,甚至中國的稅務部門也想簽,把台、中應收稅款分清楚,但台商都很抗拒
+ *數據品質:財政部數據比較好,經濟部數據比較差
+
+ nchild 談昨天參加開放資料法制討論
+ *目前政府對於開放資料有興趣作
+ *韓國有開放資料專法,若剛才韓國的商業版圖研究,是來自政府資料公開,把這個 case 搬回台灣,在政府改造上就有施力點
+ *你被服貿了嗎?的使用者觀察,大家在搜不只在搜自己的行業,也會搜其他大集團的企業,但不清楚個別公司名。所以或許有個 catalog,就有無限應用空間
+
+ 企業分家如華碩、和碩,資料上如何處理?
+ *存續公司,以統一編號來判斷,例如東森電視轉手歷程,但這樣的轉手歷程需要人類用智慧去梳理研究,無法單就資料來理解
+ *若把三百大集團企業併進來
+
+ 對政商關係有興趣,國營事業轉民營.....、當退休酬庸,
+ *目前的研究現況,研究者多半都是針對個別產業、機構來研究
+ *政大鄭力軒:研究中船 -> 台船民營化,變成退休將領
+ *熊瑞梅:半導體業
+ *中華五千大含國營事業,甚至連尚未公司化的單位例如林務局、郵局都有統計;天下基本只做私營企業
+
+ 五千大公司?五千大企業?
+ *公司,看統編 ID,但也包含郵局、林務局
+ *推測:用營業額主導「企業大小」的判斷
+
+ 未上市公司佔 dataset 的多少?上市 23%,七成多未上市
+
+ 人工智慧 vs. 工人智慧
+ *三千大企業屬於哪些集團,可否用人工方式處理
+ *借助人類 google,理解跟判斷的能力
+ *分產業、找人工來判斷 -> task 如何能切到夠小作 crowd sourcing,太大包會很難找志願者
+ *老師:我是可以付得出 pay!!! 如果發現有電腦無法解決、需要智能判斷的部分,可以來找我,也可以給他訓練或參與感(企業與社會小組 10~15 萬 / 年可支用範圍,可以花錢辦一場研討會把它吃掉 XD,但也可以發給工讀生建資料庫)
+
+
+ ----以下為行前準備----
+
+
+ *預計交流
+ *交流要點蒐集第一輪,預計 11/03 寄出給林宗弘老師 & 邀請助理來共筆
+ *歡迎寫寫你的行前想法
+ *
+ *想了解如何調閱企業轉投資的情況(特別是房地產)與詳細借貸情形、官員民代之投資資料、各企業和官員民代之名下房地產資料
+ *據說中研院有 1930 年代以來台灣報紙(訃聞)資料庫,能否分享資料?
+ *李宗榮研究員那裡有整理好的檔案
+ *財團與地方政治的互動關係?
+ *政商關係的中國因素
+ *了解中研院企業資料與數據的內容、架構、格式 ...等
+ *討論中研院資料的 Licenses 課題
+ *開放討論未來合作可能
+
+
+ 介紹本政商關係專案,預計涵蓋的[電子資料庫]、[文本]、[工具]:
+
+ *電子資料庫(監察院、司法院、行政院)
+ *陽光法案主題網:申報資料查詢(監察院),包含
+ *公職人員財產申報(g0v repo)
+ *政治獻金收支結算 / 開放政治獻金資料庫
+ *近五年廉政專刊電子書
+ *以上需備份,避免五年時效經過後被選擇性移除,例如連戰財產申報紀錄,官方載點於 2014/9 已失效
+ *透析貪污判決--揭露與查詢網站 (司法院)
+ *財團 / 社團法人檢索(kiang++)/ github repo / 法人及夫妻財產登記公告 (司法院) / github repo for data
+ *公司登記資料 (行政院 經濟部)
+ *政府採購網資料(行政院 公共工程委員會)
+ *公開資訊觀測站 (行政院 臺灣證券交易所)公司全名整合上市櫃股票代碼, 8 月萌典松: moed5ct (含直播及文字轉播) 併政獻松,被 johnny 和我解開啦挖哈哈 / 以下貼自 政治獻金 / 政商關係搜尋介面 mockup / 公職人員財產申報的股票是登記縮寫 ex: 1314 中石化 ,但政治獻金是登記全名 中國石油化學工業開發股份有限公司 。考慮撈證交所公開資訊觀測站「公司名 / 股號 / 公司名縮寫」對應資料 / Johnny 撈到資料了喔耶!/ excel資料,目前一萬四千筆股票申報可辨別出一萬兩千筆,未辨識出的包含未上市櫃、以及國外的股票,以及一些比較難的,例如:台灣積電=?台積電、台塑化=?台灣塑化、中美晶...等等,可能須手動加入這些俗稱
+
+ *文本(公司出版品、文獻、紅白帖)
+ *個別公司所發行年報與公開資料:ex《台灣中油刊物》...
+ *公開可搜尋的關係事實與文本:ex《總統的親戚》...
+ *聯誼會:老牌三三會、中部磐石會、全國商業總會 ...
+ *紅白場,訃聞資料,喜帖 ...
+ *工具
+ *公司關係圖 / ronnywang github repo / 隱藏版地址檢索功能 /index/search?q=address%3A該地址,使用範例
+ *人物關係生產器 / 公眾人物關係圖 / kirby 開發中 / github repo