g0cr / g0vcaptcha

最後編輯:2017-07-03 建立:2017-07-03 歷史紀錄

 

    IPA CStrategy

KANG-MIN L此專案的目的在批次處理文件的掃描圖檔,轉換為文字。

 

*.gov.tw 上許多報告文件雖是 PDF,但其內容卻是紙本報告掃描而成的圖檔,無法快速傳成文字格式、或建立索引。因此必需要由人工來處理。

 

運作方面,打算仿效 recaptcha 的方式,先把圖檔切成較小的文字區塊,一方面可以丟給程式做 OCR,另一方面做出界面讓使用者提供正確答案。

 

最終的產品,是把上傳的圖檔轉成純文字格式,讓人可以搜尋,或讓外部搜尋引擎可以抓取內容回去。

 

    IPA CScope

KANG-MIN Lweb app: http://g0cr.gugod.org/

git repo: https://github.com/g0v/g0vcaptch

 

 

Web App

  • 讓人上傳文件
  • 顯示機器辨識的結果
  • 實做多種機器辨識演算法,以提升整體的正確率(recall)
  • 讓人可修正機器辨識的文字
  • 顯示人工辨識的結果
  • 提供搜尋介面,讓人可搜尋文件內容
  • 提供每份文件的靜態版,讓外部搜尋引擎抓取
  • 讓人可提供文件的輔助資訊,例如:來源,摘要,原下載網址。

 

Background job

  • 抓取文件中有字的區塊,並進行機器辨識
    • Kang-min Liu目前使用 tesseract 做成 HOCR 格式的輸出。
  • 整合所有區塊,製成成靜態版(純文字及 HTML)

 

 

    IPA CStructure

 

    ET BWireframe / Content

 

    ET BVisual

 

    CHARLES C白老鼠/狗食部落客

  • CHARLES C如果有這功能,我可以把我們所有客戶的captcha都逐步換上。