g0cr / g0vcaptcha

編輯歷史

時間	作者	版本
2017-07-03 06:41 – 06:41	(unknown)	r0 – r1
顯示 diff + g0cr / g0vcaptcha + + Strategy + 此專案的目的在批次處理文件的掃描圖檔，轉換為文字。 + + .gov.tw 上許多報告文件雖是 PDF，但其內容卻是紙本報告掃描而成的圖檔，無法快速傳成文字格式、或建立索引。因此必需要由人工來處理。 + + 運作方面，打算仿效 recaptcha 的方式，先把圖檔切成較小的文字區塊，一方面可以丟給程式做 OCR，另一方面做出界面讓使用者提供正確答案。 + + 最終的產品，是把上傳的圖檔轉成純文字格式，讓人可以搜尋，或讓外部搜尋引擎可以抓取內容回去。 + + Scope + web app: http://g0cr.gugod.org/ + git repo: https://github.com/g0v/g0vcaptch + + + Web App + 讓人上傳文件 + 顯示機器辨識的結果 + 實做多種機器辨識演算法，以提升整體的正確率（recall） + 讓人可修正機器辨識的文字 + 顯示人工辨識的結果 + 提供搜尋介面，讓人可搜尋文件內容 + 提供每份文件的靜態版，讓外部搜尋引擎抓取 + 讓人可提供文件的輔助資訊，例如：來源，摘要，原下載網址。 + + Background job + 抓取文件中有字的區塊，並進行機器辨識 + 目前使用 tesseract 做成 HOCR 格式的輸出。 + 整合所有區塊，製成成靜態版（純文字及 HTML） + + + Structure + + Wireframe / Content + + Visual + 白老鼠/狗食部落客 + *如果有這功能，我可以把我們所有客戶的captcha都逐步換上。