free soft

Online OCR

Google Docs、Google Drive ← http://digibibo.com/blog-entry-3343.html

商用ソフトの比較レポ

3種類の日本語OCRソフトを比較

↑結論は、状態の良い原稿ならe.Typist。状態の悪い原稿や新聞、英語交じり、2段組など複雑なレイアウトなら読取革命。Acrobatは縦書きがダメ。

縦書きも認識、日本語テキストの抽出に適したウェブサービス3選 ← ここによればやはりGoogle Doc か

各種OCRソフトを比較 ← ここに依ればベストはABBYY

研究

Max Jaderberg のOCR ← 現在ダウンロードできるのはECCV2014版とNIPS2014版。共にMatlab/MatConvNetを使用。MEXの設定も必要

Coursera Machine Learning (11): 写真の光学文字認識 (Photo OCR)

参考になるかもしれない実装

http://programtalk.com/vs2/?source=python/14209/DeepLearning-OCR/online/ocr.py

https://github.com/pannous/caffe-ocr

TODO

Pythonで日本語OCRを行うときのメモ

tesstrain.sh で Tesseract-OCR の言語データをカスタマイズする

Tesseract-OCT 3.04を試してみる

Ubuntu 14.04 LTS でOCR

結論

画像ファイルからのOCRなら Google Docs か。

対話的に行いたいならCapture2Textが手軽。

PDFやWordのファイルなら xdoc2txtも。

1行だけなら、NHocrの真ん中もかなり使える。

xdoc2txt

http://ebstudio.info/home/xdoc2txt.html

画像ファイルには対応していない。

Windowsでfamiliar な文書フォーマットならいい選択肢かも。

OCRというよりもテキスト抽出ツールというべきか。

CUIで操作。

GT Text

http://www.softocr.com/

活字と背景の境がシャープだと Google Docs には及ばないが、まあまあ。

境がシャープでないと殆ど使いものにならない。

e.Typist ダウンロード(windows)

http://www.vector.co.jp/soft/winnt/hardware/se377897.html

使ってみたいが先払い制の有料ソフト

ABBYY FineReader 12 (windows)

http://www.vector.co.jp/soft/winnt/hardware/se505907.html

フリーで使えるのは30日間のみ。

結果はイマイチ。

元は活字なのにどうしてそう解釈するか、という印象。

活字と背景の境がシャープでないと精度が落ちる。

こんなソフトに金を出す気にはなれない。

NHocr:日本語文字認識プログラム

NHocr (webサービス)

http://maggie.ocrgrid.org/nhocr/index-j.html

真ん中の「日本語文字行認識」が使い物になる。

上は全然ダメ。

下は縦横の大きさが一致する正方形の場合のみ。結果は第5候補まで表示。

Capture2Text (windows)

https://sourceforge.net/projects/capture2text/

画面上を範囲選択し、その範囲の翻訳ができる。

ショートカットを覚えれば手軽に使える。

認識できないときは範囲を狭めるなどの対処が容易。

完全自動化には遠いか。

認識性能は ABBYY FineReader と同程度か。

Renee PDF Aide

http://freesoft-100.com/review/renee-pdf-aide.html

これはハッキリ劣る

メディアドライブ

http://mediadrive.jp/products/index.html

多数の商用ソフトを取り扱っている(手書き/活字)

Google ドキュメント

新しいGoogleドライブで画像やPDFをOCRにかける方法

帳票OCR Ver.8

http://news.panasonic.com/jp/topics/148335.html

http://www.panasonic.com/jp/business/its/ocr_form.html

その他

OpenOCR

TensorFlow-OCR

Caffe-OCR ← tensorflow-cor の母体

https://github.com/PythonWorkshop/intro-to-tensorflow/blob/master/OCR/OCR_With_TensorFlow.ipynb

直接関係ないが、文字列を画像化するソフト

txt2jpg

http://blogs.yahoo.co.jp/psp_mint/1372625.html

LettersImage

http://ooyama.jp/soft/doc/LettersImage/index.html


トップ   差分 バックアップ リロード   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2017-06-26 (月) 23:03:22 (90d)