iPhoneで撮った名刺の内容をテキスト化する「OCR」とは?

いまや「iPhone で名刺管理」は、名刺交換の機会が多いビジネスマンに必要不可欠な iPhone の活用法になっています。

とはいえ、日々増えていく名刺を1つ1つ手入力するのは現実的ではありません。そこで役立つのが「OCR」です。

Evernote
Evernote


OCR は、画像から文字を取り出して iPhone・PC で扱えるテキストにすること。この処理を行わない限り、画像に含まれる文字を検索することはできません。

そこで今回は名刺管理アプリで使われている、OCR の仕組みを簡単にご紹介します。

OCRとは?

冒頭でご紹介した通り、写真から文字を見つけ出して iPhone・PC で扱えるテキストデータに変換することを「OCR」と呼びます。

OCR は、おおまかに分けて4つの段階を経てテキスト化を行います。

  1. 文字を認識しやすいように画像を加工する
  2. 画像の中から文字と思われるものを取り出す
  3. データベースと照合して該当しそうな文字の候補をリストアップ
  4. 言語として正しい並び(文章)になるかを確認する

誤字脱字は起こる?

OCR の精度は年々向上していますが、完璧な技術ではありません。

プログラムが判別しているので、文字ではないものを文字と認識する・誤った文字を候補として選ぶ・意味解釈を誤るといったミスが起こります。

さらに英数字と漢字・片仮名・平仮名が混在している場合は、データベースとの照合に時間がかかったり、誤った候補を選びやすくなります。

その結果、OCR で作成したテキストには誤字脱字が含まれることがあります。その場合は手動で修正するほかありません。

OCRの処理はどこで行われるのか?

OCR を行うには高い処理能力が求められたり、様々なデータベースが必要になるのでそうしたデータを保存できる容量が必要になります。

iPhone 単体で処理できるものもありますが、より精度の高い処理を行う際はデータをサーバに送信し、そこで処理する方法がとられます。

例えば Evernote では、もともと全てのデータをサーバに保存しますが、画像があるとサーバが自動で OCR 処理を行います。

その間、iPhone でアプリを閉じたり、PC の電源をオフにしていても問題ありません。

脚光を浴びる「人力OCR」

そんな状況の中で、名刺管理アプリで昨今注目されているのが「人力 OCR」です。文字通り、人が作業に携わります。

この人力 OCR には2つの方式があります。1つは人間がテキストに起こす方式、もう1つは OCR の結果を人間がチェックする方式です。

いずれの方式も作業に人間が携わることで OCR にありがちな誤字脱字を防ぎますが、これでも完璧ではありません。

名刺管理アプリでは「人間がテキストに起こす方式」を使っている例が多いようです。

スキャン・登録した情報はどうなる?

OCR・人力 OCR を問わず、名刺などをスキャン・登録する際に気になるのが「情報はどのように扱われるのか」です。

セキュリティを確保した上でデータを取り扱っているとアピールしているアプリ・サービスもありますが、これだけでは「情報がどのように使われるのか」が分かりません。

それを知るには、アプリ・サービスの「利用規約」または「プライバシーポリシー(個人情報取扱規約)」をチェックしましょう。

これらの文書では、どんな情報が取得されるのか・情報は何の目的で使われるのか・第3者に公開されるのはどんな時か、などを定めています。

大切な情報を扱うだけに、こうした点はきちんと把握しておくことをお勧めいたします。

参考(順不同)

参考になったらシェアお願いします!
Twitterへ Facebookへ はてブへ Pocketへ
▼新着記事やオススメ記事を投稿中!