Google Vision OCRがどれくらいの精度で抽出できるか検証してみた

KwacKwai さんのブログ記事

背景

あかがねでは、多言語、多ページのカタログ製作を行っており
多ページカタログ製作では効率化を求められています。

特に新規のお客様の事情に応じてPDFからデータを取得することがあり
効率化の一環として、OCRを利用したいというニーズがあります。

今回は、AI系のOCRを調査、利用してみたというお話をします。

世の中にはどれくらいAI系OCRがあるの?

世の中には色々 AI系のOCRはあるけれども
https://qeee.jp/magazine/articles/15465

また、Google GCP、Amazon AWS、MS Azureなどの
Cloudプラットフォーム系もAI OCRを提供しています
Google https://cloud.google.com/vision/
AWS  https://aws.amazon.com/jp/textract/
Azure  https://azure.microsoft.com/ja-jp/services/cognitive-services/computer-vision/

今回はGoogle Cloud Vision OCRを触ってみた

Cloud Vison OCRを使用する理由

対応言語が多く、Web上に比較的情報量が多い

Google Cloud Vision OCR の対象にするのは、活字

とあるカタログ一部の画像をCloud Vision OCR へアップロードし、結果を取得

うまくいったケース

アップロードした画像

取得した結果

●穴あけ能力…コンクリート13mm・鉄工13mm・木工
38mm ●チャック能力…13mm●回転数…高速0~2,000
回転/分、低速0 ~ 500回転/分●打撃数…高速0~
30,000回/分、低速0~7,500回/分●質量…1.7kg (バッ
テリ含)●バッテリBL1460B×2・充電器DC18RC・ケース付

かなりの精度で取得できた

うまくいかなかった(苦手そうな)ケース

アップロードした画像

取得した結果

●穴あけ能力…コンクリート・鉄工20mm・木工50mm・
座堀り76mm・大径コア220mm (サイディング)●ネジ締
め能力・木ねじ10×90●回転数…低速0 ~ 650回転
1分・高速0~2,600回転/分●打撃数…低速0~9,750
回/分・高速0~39,000回/分●標準付属…バッテリ
BL4025×2・充電器DC40RA・ケース付●質量…2.3kg

一見うまくいっているようにみえるが、Φが取れていない
現象として、Φなどのギリシャ文字は取得されていない、もしくは、
「ゆ」などの別の文字に代わることが多い
「½」などの機種依存文字も取れていないことが多い
分数のケースは文字サイズが大きい場合は1/2と取得できる場合がある

今回、調査してみた感想

一昔前のOCRソフトに比べると格段に精度が上がったと実感できた。
100%の精度が出ない前提で使用するには問題ないが、取れない文字が含まれている
ことを知らせる機能があれば、活用の幅が広がりそうだと感じだ。

 

この記事はさんが執筆しました

Google Vision OCRがどれくらいの精度で抽出できるか検証して...