私たちが提供するAI-OCRは、単に文字だけを認識する技術ではありません。
刻印文字、記号、ロゴ、ピクトグラムなど、形状・材質もさまざま、多種多様な視覚情報を扱っています。
その中で高精度を実現するために、「読み取りの前に、どれだけAIにとって読みやすい画像を用意できるか」という思想で前処理を設計しているのです。
前回ご好評いただいた前段処理の解説に続き、今回は前処理で使用している関数までお見せします。
私たちが提供するAI-OCRは、単に文字だけを認識する技術ではありません。
刻印文字、記号、ロゴ、ピクトグラムなど、形状・材質もさまざま、多種多様な視覚情報を扱っています。
その中で高精度を実現するために、「読み取りの前に、どれだけAIにとって読みやすい画像を用意できるか」という思想で前処理を設計しているのです。
前回ご好評いただいた前段処理の解説に続き、今回は前処理で使用している関数までお見せします。
以前にもご紹介しましたが、AIにとって画像とは、数値の集合でしかありません。
人間には明確に見える画像であっても、AIにはそれが情報なのか、ノイズなのか、被写体なのか、背景なのかなどの判断が必要になります。
センクリードの画像処理ライブラリ「Growdea」は、この判断を後段処理に丸投げせず、前段処理の段階で極限まで整えます。
前処理段階で、AIが迷わず判断できる状態まで持っていくというのが、Growdeaの基本思想です。
Growdeaの前処理は、以下の関数・処理を基盤としています。

いずれも広く知られた技術です。
Growdeaでは、これらを単独機能として用いるのではなく、前後関係を持つ処理群として設計しています。
ひとつひとつの関数や処理をどのように使用しているのか、それぞれ解説していきます。
ReLUは、一定以下の信号を0として切り捨てる関数です。
Growdeaでは、紙表面のざらつき、汚れやかすれのようなノイズ、背景の微細な陰影など、識別に不要な情報を整理する目的で使用しています。
ReLU単独で使うのではなく、前後の関数と組み合わせることで、消しすぎず残しすぎないバランスを数学的に制御しています。
Sigmoidは、値を0~1の間に滑らかに圧縮する関数です。
薄い刻印、背景と一体化してしまった文字などを、完全に二値化せず情報として保持するために使用しています。
Sigmoidも単独で完結する処理ではないため、前後でほかの関数と連携させています。
この連携によって、あいまいさを残すべき箇所と明確化すべき箇所を切り分けています。
Swishは、ReLUとSigmoidの特性を併せ持つ関数です。
ロゴの曲線、イラストの輪郭、文字の細い線など、消してはいけない要素を損なわないための調整役として使っています。
強すぎる処理を中和し、前処理全体の「なだらかさ」を担う存在です。情報の連続性を保つために組み込まれています。
Average Poolingは、局所領域を平均化する処理です。
Growdeaでは、ピクセル単位のブレの抑制やノイズの平均化で使用しています。
Average Poolingによって、読み取り対象全体の形状を安定させることができるのです。
ここでも単純な適用ではなく、前後の処理と連動させることで、情報を丸めすぎない平均化を実現しています。
Growdeaは、前処理の段階から確率的な評価の思想を取り入れています。
Softmaxによって「文字らしさ」「記号らしさ」「図形らしさ」のような「らしさ」を相対評価し、誤検出を抑制することが可能です。
しかし、Softmaxが文字や記号などの最終決定を行っているわけではありません。
あくまでほかの処理を踏まえ、どれが一番「らしい」かを整理するために使用しています。
一般的な印字とは異なる刻印・ロゴ・記号などの認識では、材質や撮影条件による撮影結果のばらつきが避けられません。
そこで、Batch Normalizationにより入力データの分布をそろえ、処理全体を安定させています。
全体処理を機能させるための前提条件として、戦略的にBNを組み込んでいるのです。
本コラムではGrowdeaの基盤となる技術について紹介しました。
しかし、実際のGrowdeaには、ご紹介した技術に加えて
など、より多層的な技術が組み込まれています。
これらの技術はコラムでご紹介できるような規模ではありません。
ご興味を持ってくださった方は、ぜひ私たちの開発にご参加ください。
Growdeaには、特定の対象に限定された前処理ではなく、多様な視覚情報に対応するための思想や技術が詰まっています。
読む前に迷わせない——この前処理思想が、弊社AI-OCRの精度と読み取り対象の幅広さを実現しているのです。
「既存システムに高精度なOCR機能を追加したい」
「開発スピードを落とさずに検証・導入できるOCRを探している」
そんな声にお応えし、GrowdeaをAPI、SDKライブラリとして提供しています。
また、API・SDKライブラリだけの提供に限らず、プロダクトとしてOEM提供することも可能です。
超高精度の活字OCRを、あなたのサービス、あなたのブランドでご利用いただけます。

Growdeaを搭載した業務効率化のためのソフトウェア群、「G-Correction Series」を展開しています。
オンプレミスで動作可能、買い切りタイプ、サブスクリプションタイプなど、現場からのご要望を多く反映したパッケージ群です。
帳票ソフトウェアのほか、検品、ポカヨケ、マスキングなど多種多様な商品をご用意しています。
これらの商品はOEM提供が可能です。ぜひご検討ください。