OSS OCR の Tesseract がスゴイ件

洋書の輪講で、重たい本を持ち運びたくないのと、辞書引きを効率化するためにTesseractでOCR化してみた。

以前はsourceforge.netでホストされていたが、いつの間にか Google Code に移っていた。
詳しくは以下を参照。

Windows な人は

をダウンロードしてくる。

tesseract.exe
tessdata/eng.*

というディレクトリ構造を作る。

tiffcp -c none src.tiff dst.tiff

すると無圧縮のtiffファイルが得られる。

tesseract.exe src.tiff dst -l eng

まだ1ページ使ってみただけど、手直ししたところ*1は半角スペースを1つ入れただけで済んだ。神ツール！

*1:Wordのスペルチェッカ調べ