OSS OCR の Tesseract がスゴイ件
洋書の輪講で、重たい本を持ち運びたくないのと、辞書引きを効率化するためにTesseractでOCR化してみた。
以前はsourceforge.netでホストされていたが、いつの間にか Google Code に移っていた。
詳しくは以下を参照。
Windows な人は
- tesseract-2.xx.exe.tar.gz
- tesseract-2.00.eng.tar.gz
をダウンロードしてくる。
tesseract.exe
tessdata/eng.*
というディレクトリ構造を作る。
見開き/段組をうまいこと処理する方法はないっぽい(未確認)なので、先に手作業でファイルを分割した。
圧縮されたtiffを扱えるようにするのは面倒なので、手元のファイルを非圧縮形式のtiffに変換した。
libtiff のbinary(http://gnuwin32.sourceforge.net/packages/tiff.htm)をおとしてきて
すると無圧縮のtiffファイルが得られる。
tesseract.exe src.tiff dst -l eng
まだ1ページ使ってみただけど、手直ししたところ*1は半角スペースを1つ入れただけで済んだ。神ツール!
ocropusも気になるけど試していない。
*1:Wordのスペルチェッカ調べ