20141108 gxv 拜訪中研院社會所林宗弘副研究員

最後編輯:2017-07-03 建立:2017-07-01 歷史紀錄

 

CHE L政商關係專案,預計 20141108 (六) 17:10 拜訪中研院社會所企業資料研究單位,當天為 g0v 年會 (9:00-17:00) Che-wei 已和林宗弘老師及助理聯絡,將會整理數據、並視情況安排會議室,歡迎對公司資料、公司關係、政治獻金、政商關係⋯⋯等主題有興趣的 g0vers 參加。

 

感謝林宗弘老師的((熱血))介紹。

 

    VENEVTodos

  • CHE L11/18 (二) 下午三點,於中研院 copy 資料(2995 家企業資料、13 個變量,dta 檔、excel 檔)
    nchild不直接用4.0的理由是?
    che wei liu已改 ! (我不曉得有 4.0 @@@!! << 汗)
    che wei liu
  • [授權課題] 釐清徵信資料的授權課題;資料庫比對勘誤成果(?)可公開,並搭配既有的徵信資料授權服務
  • chewei 預計整理已被指認的資料集清單與描述及其來源,歸納不同資料集之間 linked 項目,例如「統一編號 id」、「(總經理)姓名」...
  • [已招募] 中研院企業與社會研究小組招募全職短期,工作內容為台灣企業數據整理,已招募。若有朋友希望參與,可聯繫洽談以時薪工讀方式參加
    che wei liuhi slamky 有需要協助的事情嗎?

 

關聯專案

CHE L本篇文字紀錄出來後,1108 晚間,Torrent 也分享他正在研究的的「企業資料與汙染資料的鏈結」內容與資料課題,汙染廠商之間是否有企業集團關係子孫關係,也是目前需要再釐清的環節,需要較完整的企業關係來作為架構,詳細內容請見:https://g0v.hackpad.com/rInrPBeYd5I

 

 

    CHE L欲參加者請簽到報名

CHE Lchewei, venev, BP, 張淵智,黃裕盛, Robinn(以下是現場自介重點紀錄,歡迎補完)

 

  • VENEVvenev:開放政治獻金、關心政商關係
  • 張淵智:關鍵數據小組,政治所研究生,主修國內貪腐
  • 吳長鋼:關鍵數據小組,林宗弘的經濟系學弟,g0v 蚊子館、貪污搜尋引擎
  • CHE Lsuperbil:政府公開通訊錄,跟 ronny 一起路過的
  • VENEVronny:蒐集資料愛好者,公司資料、公司關係、關貿進出口
  • CHE Lchewei:本次會議主揪
  • VENEVnchild:你被服貿了嗎、議題解讀懶人包師傅
  • BP:影音技術相關、政商關係專案 venev 技術助理
  • cicilia:g0v summit 參與者,軟體工程師,自然語言處理工程師(文字理解)
  • 珮瑩:外文、社會、歷史,現在在教育系工作,對社會網絡有興趣
  • CHE LTorrent:Texas A&M University社會所博士生,目前研究台灣高科技產業與污染。目前開設一個 hackpad : 企業資料與汙染資料的鏈結 https://g0v.hackpad.com/rInrPBeYd5I

 

    VENEV林宗弘老師介紹目前手頭有的資料

  • VENEV2007 中華徵信三百大集團企業(書面資料,無電子檔,用紙本重新輸入),另李宗榮老師則是從訃聞搜尋家族關係(李宗榮老師有電子檔),未來期待親屬網絡與三百大集團合併數據
    • 希望讓「有政商關係」的大企業,和沒有政商關係的中小企業作比較
  • 去年開始找天下雜誌和中華徵信來談
  • 天下雜誌:資料不賣(可能沒整理?)
  • 天下雜誌製造業一千大後來變兩千大,任意擴張篩選來源,篩選方式不透明(可能以營收為主),有口徑不一致問題
    • 跟中華徵信五千大數據比對、補缺
  • 整理出中央研究院「台灣企業排名資料庫」第一版,2995 家企業資料、13 個變量
    venev會後索取看看簡報
  • 2005 年後更改會計規範要合併報表,之後有數據膨脹問題(必須統計到孫公司的帳務)
    • 中華徵信:要求台灣本地員工數;天下雜誌:要求集團總員工數
    • 以鴻海為例,是 6800 多人和129萬多人的差異(主要差異在中國)
    • 這樣就可以比對本土和海外雇員數
    • 這幾年台灣雇用人數都沒動,但海外雇用人數陡峭上升
  • 台灣中小企業的平均利潤率開始降低,但大企業波動較小

 

  • 長鋼補充:之前 open data 年會,高有智先生,有報告過如何做出兩千大,是在每年財報出來之後,找大量工讀生來爬財報

 

宗弘:兩千大有未上市公司,天下雜誌是用傳真機或 e-mail 作業,沒有強制力,所以沒填就沒資料。中華徵信社擁有更完整數據是因為他是徵信社,銀行會跟企業要「徵信證明」,所以資料來源較易和正確性較高

 

  • 1999 年以前,營收超過一億就要公布財報
  • 1999 年以後,沒上市就不用公布財報,所以 no data

 

中華徵信社的資料是用買的,有授權問題

天下雜誌的數據資料是中研院社會所自己工人智慧再整理出來的,應該是可以直接開放授權出來(建議與中研院本所的研究員掛名合作較安全)

 

牛肉!!!曾進出中華徵信五千大的花名冊 excel 檔,共有九千多家

  • 欄位說明
  • 以頂新集團為例
  • 已經是結構數據了

 

下一步?

  • 上個月跟中華徵信討論,想買三百大集團企業(歷年共五百多個)和一千大台商,可以拼湊兩岸企業版圖,及兩岸政商關係
  • 希望要 data 而非查詢權限,但中華徵信不肯,只肯給近三年數據
  • 估計明年年底,以中華徵信為樣本來源的東西才會整理完
  • 短期之內台灣應該不會有其他機構做得出來
  • CHE L初步判斷以有條件公開的方式,來避免可能的授權糾紛,例如相關作品要跟中研院研究員共同掛名,再利用上比較安全。總之目前需要持續釐清法律細節。

 

    VENEV討論

VENEV工讀生做的東西可以用 crowd sourcing 方式加快速度嗎?

  • 林:檢誤問題,傾向用六七個工讀生、兩三個月輸入完畢,兩三個工讀生配合研究助理繼續檢查錯誤

 

台灣前一千大企業佔七成經濟活動(年底可運用資產、全年營收),但雇員只佔全台勞工的三成

  • 台灣大部分的就業人口,還是靠中小企業

 

集團關係是用法人關係?

  • 因為董監事是公司登記資料必須強制登記的,持股必須是

 

可以先做做看天下版的一千大數據:下週跟林老師聯繫拿 excel 檔

中華徵信的五千大版,可能要再等

 

CHE L會希望能把海外台商數據也納進來

  • 例如服貿協議的爭議,若是沒有數據什麼屁都講不出來
  • VENEV跟某國貿易額多大 -> 經濟成長會多少
  • 如果真的放任台商企業出去投資,實際台灣就業減少 <- 目前做出來是這樣的預估

 

訃聞數據庫?答案是沒有

  • 親屬網絡數據與細節要找李宗榮老師
  • 估計要一年半~兩年,才能把親屬網絡和商業關係接起來
  • 用台灣十三分報紙數據庫爬出來的

 

能否讓中研院買來的數據,經整理補缺之後,以 open source 方式釋出

  • 有法律上的顧慮,如何解決(問 isabel? ;當日 summit 晚宴有初步請教林誠夏研究員,日後可持續聯繫釐清)
  • BP:中研院護城河概念:把中研院獨立 effort 的東西以 patch 形式開源釋出;由民間公司買一年查詢權限,加入中研院的 patch,作後續應用
  • 孝先:可以回去查一下,中研院對數據的改善,是否構成編輯著作,取得相關權利

 

另一條途徑:許多企業資料的欄位,除了天下雜誌的單方面詢問企業、徵信業者的徵信資料外,是否政府手上有更直接的資料集,或可回推的數據項目?可以敦促他們 open data

  • 工商普查、國稅局(稅後淨益)
  • 勞動部、健保局會有所有員工數
  • CHE Lronnywang 觀察到規定僱用身障者的法令、比例與裁罰的內容細節,亦可回推該企業的勞動數據

 

unconf 的時候,偉宸(?) 補充銀行的聯盟會員有建構一個資料庫,可以查詢個別企業什麼,(糟糕我忘了細節XD",待補)

    venev跟徵信相關嗎?希望聯絡得上偉宸進一步詢問 ^^b

 

VENEV認為台灣政府、經濟所應該都沒有這樣的資料

談台灣經濟前途,ECFA、服貿利大於弊,但沒有實證資料在手上,很難信服

 

韓國研究者已經把財團企業商版圖做出來了,還把研究做到台灣來,比對台韓之間大企業所佔的比例,竟發現韓國中小企業比例其實比台灣更高、扮演更大的經濟角色 (此為大意解釋,詳細名詞描述方式待補)

 

GDP 灌水失真問題

  • 服務業出口近幾年增長很快,但懷疑是灌水作帳用,例如鴻海賣顧問服務 -> 富士康,成為應付帳款,降低中國的加值稅
  • 在台灣分紅可以逃過中國的稅(但大批現金股利是如何匯入的)
  • 外資法人未必要買中國子公司,可能會在台灣買股票、拿現金股利
  • 生產端作帳部分比較容易理解,因為只有四門;但消費面到底記入哪裡?估計是「服務業輸出」,
  • 張淵智(台灣企業在中國製造方面的收入)推測估計讓 GDP 虛胖 2%,所以 GDP 若小於 2 很可能是負成長
  • VENEV服貿的減稅就會減在服務業出口的科目下,這項應收帳款匯入時就不用收稅
  • 兩岸租稅協議還沒有簽,財政部很想簽,甚至中國的稅務部門也想簽,把台、中應收稅款分清楚,但台商都很抗拒
  • 數據品質:財政部數據比較好,經濟部數據比較差

 

nchild 談昨天參加開放資料法制討論

  • 目前政府對於開放資料有興趣作
  • 韓國有開放資料專法,若剛才韓國的商業版圖研究,是來自政府資料公開,把這個 case 搬回台灣,在政府改造上就有施力點
  • 你被服貿了嗎?的使用者觀察,大家在搜不只在搜自己的行業,也會搜其他大集團的企業,但不清楚個別公司名。所以或許有個 catalog,就有無限應用空間

 

企業分家如華碩、和碩,資料上如何處理?

  • 存續公司,以統一編號來判斷,例如東森電視轉手歷程,但這樣的轉手歷程需要人類用智慧去梳理研究,無法單就資料來理解
  • 若把三百大集團企業併進來

 

對政商關係有興趣,國營事業轉民營.....、當退休酬庸,

  • CHE L目前的研究現況,研究者多半都是針對個別產業、機構來研究
  • VENEV政大鄭力軒:研究中船 -> 台船民營化,變成退休將領
  • 熊瑞梅:半導體業
  • 中華五千大含國營事業,甚至連尚未公司化的單位例如林務局、郵局都有統計;天下基本只做私營企業

 

五千大公司?五千大企業?

  • 張淵智公司,看統編 ID,但也包含郵局、林務局
  • VENEV推測:用營業額主導「企業大小」的判斷

 

未上市公司佔 dataset 的多少?上市 23%,七成多未上市

 

人工智慧 vs. 工人智慧

  • 三千大企業屬於哪些集團,可否用人工方式處理
  • 張淵智借助人類 google,理解跟判斷的能力
  • VENEV分產業、找人工來判斷 -> task 如何能切到夠小作 crowd sourcing,太大包會很難找志願者
  • 老師:我是可以付得出 pay!!! 如果發現有電腦無法解決、需要智能判斷的部分,可以來找我,也可以給他訓練或參與感(企業與社會小組 10~15 萬 / 年可支用範圍,可以花錢辦一場研討會把它吃掉 XD,但也可以發給工讀生建資料庫)

 

 

CHE L----以下為行前準備----

 

 

    CHE L預計交流

    che wei liu交流要點蒐集第一輪,預計 11/03 寄出給林宗弘老師 & 邀請助理來共筆
    che wei liu歡迎寫寫你的行前想法
    Chiang. ying. ru
  • CHIANG. R想了解如何調閱企業轉投資的情況(特別是房地產)與詳細借貸情形、官員民代之投資資料、各企業和官員民代之名下房地產資料
  • VENEV據說中研院有 1930 年代以來台灣報紙(訃聞)資料庫,能否分享資料?
    • 李宗榮研究員那裡有整理好的檔案
  • 張淵智財團與地方政治的互動關係?
  • 政商關係的中國因素
  • CHE L了解中研院企業資料與數據的內容、架構、格式 ...等
  • 討論中研院資料的 Licenses 課題
  • 開放討論未來合作可能

 

 

介紹本政商關係專案,預計涵蓋的[電子資料庫]、[文本]、[工具]:

 

 

  • CHE L文本(公司出版品、文獻、紅白帖)
    • 個別公司所發行年報與公開資料:ex《台灣中油刊物》...
    • 公開可搜尋的關係事實與文本:ex《總統的親戚》...
    • 聯誼會:老牌三三會、中部磐石會全國商業總會 ...
    • 紅白場,訃聞資料,喜帖 ...