株式会社センクリード

AI-OCRの精度はどこで決まるのか。Growdeaの前段処理を詳しく解説

OCRにおける「認識前」の重要性

AI-OCRは、どうしても読み取り精度、つまり「文字認識AI」の精度が注目されがちです。
しかし、実際の業務でOCRを使ってみると、性能を左右しているのは読み取り以前の工程であることがよくわかります。

どのような画像を入力として受け取るか、画像をどこまで調整するか、どんな順序で処理するか、間違った場合にどこへ戻れるようになっているか——

といった、前段の設計全体こそが、OCRの安定性や精度を決定づけるのです。

センクリードの技術の結晶である「Growdea」は、この前提のもと、画像処理そのものからAIのコア部分まで一貫して自社設計しています。

本記事では、GrowdeaにおけるAI-OCRの構造を、処理の流れに沿ってご紹介していきます。

 

1.Growdeaが持つOCR技術の全体像

GrowdeaのAI-OCRは、大きくわけて次の3つの層で構成されています。

  1. 画像加工処理層(ピクセル・特徴量レベル)
  2. 情報検出層(検出・セグメンテーション)
  3. 認識・分岐層(文字認識・判断制御)

一般的なOCRは、2や3に重点を置くことが多いのに対し、Growdeaは1.画像加工処理の比重が特に大きい点が特徴です。

AIに見せる前のものをいかに整えるかが、結果的に認識精度を安定させる。この考え方が、Growdeaの技術設計の原点となっています。

 

2.画像加工処理層:ピクセルレベルでの正規化

2.1 局所的な光量最適化

Growdeaでは、画像全体を一律に補正するのではなく、ピクセルや領域の単位で光量補正を行います。

これにより、白飛びしている部分は階調を保ったままに抑制したり、黒くつぶれている箇所はノイズを増やさずに明るくしたり……といった繊細な調整が可能になります。

帳票OCRでよく問題になる、スキャン時の条件・用紙・印刷濃度などのばらつきを、画像の段階で吸収することが目的です。

 

2.2 ストローク幅の正規化

OCRにおいて、文字の線幅は重要な特徴量のひとつです。

Growdeaでは、文字のストロークに対して、太すぎる部分・細すぎる部分を調整する処理を行い、線幅のばらつきを抑制しています。

これにより、潰れた文字やかすれた文字、小さな文字に対しても、抽出する特徴量が比較的安定するようになります。

 

2.3 超解像とエイリアシング抑制

小さな文字を単純に拡大すると、輪郭がギザギザになってしまったり、補完で輪郭がぼやけてしまったりといった問題が起きがちです。

Growdeaは、「超解像処理」「輪郭保持型の補完」「エッジ情報の再構成」を組み合わせ、拡大後も文字構造を保てる画像生成を行います。

単なる高解像度化ではなく、認識されることを前提とした画像再構成を意識しているのです。

 

3.空間・構造を崩さないための補正技術

3.1 空間構造の補正(SLAM系技術の応用)

画像内の特徴点と関係性を捉えることで、傾きや歪み、撮影角度の差などを空間的に補正しています。

これにより、帳票内の項目同士の相対位置や、ラベル配置の関係性を保ったまま後段処理へ引き渡すことが可能になります。

 

3.2 オプティカルフローを用いた情報安定化

オプティカルフローは動体検出で知られる技術ですが、Growdeaでは「変化する要素」と「本質的に変化しない情報」の分離に使用しています。

光量の揺らぎや表示時に発生するブレなどのノイズと、文字情報として重要な領域を切り分けることで、誤検出や誤認識を抑制することができるのです。

 

4.情報検出層:認識の前に対象を絞る

4.1 意味単位でのセグメンテーション

Growdeaでは、画像全体を一気に認識させることはしていません。

帳票の項目単位やラベルの領域単位などでセグメンテーションを行い、意味を持つ単位に分割した状態で後段に渡しています。

 

4.2 グリッド分割による密集への対策

情報量が多い帳票やラベルでは、グリッド分割や分割後の独立検出を行い、局所的な文字の密集による誤認識を防いでいます。

 

5.認識・分岐層:Growdea独自AIの考え方

5.1 活字向けに最適化したCNN

GrowdeaのCNN(CNN:Convolutional Neural Network/畳み込みニューラルネットワーク)は、活字文字・記号・マーク・色を含めた設計です。
帳票OCRと画像系OCRの両方を想定した構造になっています。

 

5.2 NMSによる結果整理

Growdeaは、同じ文字が重なって認識される状態そのものを問題と捉えます。

NMS(非最大値抑制)により、重複認識や二重出力を抑え、後工程で扱いやすい結果を生成します。

 

Growdeaの特徴

GrowdeaのAIプログラムは、コア部分から自社で研究開発しています。

そのため、ご認識が起きた場合でも、「どの判定で誤ったか」「どの分岐ロジックが影響しているのか」を分岐点レベルで追跡・調整することができるのです。

ブラックボックス型のAIでは難しい、改善と調整を前提にした構造になっています。

 

私たちが重視していること

Growdeaの開発において重視しているのは、認識までの画像処理と、判断の設計です。

OCRの成否は「AIが賢いかどうか」だけで決まるものではありません。AIに渡す前にどれだけ情報を整理できるかがカギです。

Growdeaは、その整理の工程を技術として積み上げてきたOCR基盤なのです。

 

GrowdeaはAPI、SDKライブラリを提供しています

「既存システムに高精度なOCR機能を追加したい」
「開発スピードを落とさずに検証・導入できるOCRを探している」

そんな声にお応えし、GrowdeaをAPI、SDKライブラリとして提供しています。

 

OEM提供も可能です

API、SDKライブラリだけの提供に限らず、プロダクトとしてOEM提供することも可能です。

超高精度の活字OCRを、あなたのサービス、あなたのブランドでご利用いただけます。

 

お問い合わせはこちらから

 

「Growdea」搭載商品のご案内

スクラッチ開発でこだわりぬいて作られたGrowdea-OCR搭載商品群、G-Correctionのご案内

Growdeaを搭載した業務効率化のためのソフトウェア群、「G-Correction Series」を展開しています。
オンプレミスで動作可能、買い切りタイプ、サブスクリプションタイプなど、現場からのご要望を多く反映したパッケージ群です。

帳票ソフトウェアのほか、検品、ポカヨケ、マスキングなど多種多様な商品をご用意しています。

これらの商品もOEM提供が可能です。ぜひご検討ください。

Growdea搭載シリーズG-Correctionについて詳しくはこちら