g0cr / g0vcaptcha

最後編輯：2017-07-03 建立：2017-07-03 歷史紀錄

IPA CStrategy

KANG-MIN L此專案的目的在批次處理文件的掃描圖檔，轉換為文字。

*.gov.tw 上許多報告文件雖是 PDF，但其內容卻是紙本報告掃描而成的圖檔，無法快速傳成文字格式、或建立索引。因此必需要由人工來處理。

運作方面，打算仿效 recaptcha 的方式，先把圖檔切成較小的文字區塊，一方面可以丟給程式做 OCR，另一方面做出界面讓使用者提供正確答案。

最終的產品，是把上傳的圖檔轉成純文字格式，讓人可以搜尋，或讓外部搜尋引擎可以抓取內容回去。

Web App

Background job

Kang-min Liu目前使用 tesseract 做成 HOCR 格式的輸出。