社会人研究者が色々頑張るブログ

pythonで画像処理やパターン認識をやっていきます

文字認識

Python+OpenCVで文書画像からテキストラインの自動検出

はじめに tesseractでOCRする際、文書画像をそのまま入力するより、行単位で入力した方が読み取り精度が高い事を確認しました。 nsr-9.hatenablog.jp 前回の実験では手動で行を切り出していたので、今回はそれを自動で行えるようにします。

Tesseract(OCR)は行単位で処理した方が性能が良い?

確認したいこと Tesseractは、OCRを行う際の動作モードを設定できます。 公式ドキュメントを参照すると、 この中でちょっと気になったのは、 番号 処理内容 6 画像をテキストブロック(横書き文章)として扱う 7 画像を1行のテキストとして扱う という設定項…

Python+tesseractでOCR

はじめに TesseractはコマンドラインベースのOCR(光学文字認識)ライブラリです。 前回、Ubuntuにインストールして色々遊んでみました。 nsr-9.hatenablog.jp tesseractは単体だと単純なOCR機能しか提供されていませんが、様々な言語によるラッパーライブラ…

射影ヒストグラムを用いた文書画像の回転補正(2)

はじめに 前回、射影ヒストグラムを用いて文書画像の回転補正を行いました。 今回は、実際のカメラを用いてリアルタイムで文書画像の回転補正をしたいと思います。 いきなりですが、今回作ったプログラムの実行例を以下に示します。 こんな感じに、カメラが…

射影ヒストグラムを用いた文書画像の回転補正

文書画像の回転補正 tesseractは優れたOCRですが、回転ロバスト性に課題があります。 その為、実応用を行う際には文書画像の回転角を推定し、補正してあげる費用があります。 文書画像の回転補正は多くの方が研究されており、多種多様な手法が提案されていま…

OCRことはじめ

OCRとは OCR(Optical Character Recognition)はカメラやスキャナで読み取った文書画像から機械的に文字を読み取る処理を指します。 画像処理技術の中でも特に社会に大きな影響を与えた技術だと思います。 1960年代に日本電気(NEC)が手書きの郵便番号読み…