OCR

提供: MacWiki
移動: 案内検索

OCR とは?[編集]

光学文字読み取りのことです.詳しくは Wikipedia などを参照して下さい.

Mac OS X対応OCRソフト[編集]

ベンダがMac OS X対応を明記している、日本語を処理できる製品は e.Typist v.8.0 for Macintosh および Adobe Acrobat Professional しかありません。

e.Typist[編集]

最新のアップデータで 10.4.1 に対応しています。IntelMac 対応についてはまだ検証中となっています。

Adobe Acrobat Professional[編集]

文字ごとの認識精度はけっこう高いようです。

しかし、スキャンした文書が傾いている場合、OCR専用ソフトのように傾きを自動修正する機能がないので、悲惨なことになります。表の処理に関しては全く期待できません。テキスト修正のダイアログも使い勝手が非常によろしくありません。

また、字間が空き気味の文書(古い報告書などでよくあります)の場合には一文字ずつ認識されて独立したテキストボックスになる場合が多く、そのままテキストを埋め込んでも単語で検索することはまずできないと考えた方がよいでしょう。行間が詰まっている場合には、上下の行の文字が混ざってしまうこともよくあります。

また、ページ単位でOCR処理が行われますが、処理に失敗するとそのページで処理が止まってしまいます。

  • 失敗ページに関するログファイルを出力するようにして欲しいところですね.

ただし、最近の出版物で綺麗にスキャンできている場合には、けっこう満足のいく結果を得られるでしょう。しかし大量の文書を処理するのは難しいと言わざるをえません。

ビットマップ画像型のpdf ファイルの処理[編集]

pdf ファイルに含まれている文字(イメージ)に対してOCRを施し済みの場合には,Spotlight の検索対象になってくれます.

Wiki内の関連ページ[編集]