OCRテキスト認識の仕組み
OCR(光学文字認識)はテキストの画像を分析し、実際の編集可能な文字に変換します。スキャンしたドキュメントや写真をアップロードすると、OCRエンジンはピクセルパターンを調べて文字、数字、記号を識別します。最新のOCRは高度なアルゴリズムを使用して、低解像度、傾いたページ、様々なフォント、列やテーブルを含む複雑なレイアウトなどの困難な条件でもテキストを認識します。
認識プロセスは段階的に機能します:まず画像内のテキスト領域を検出し、次に個々の文字をセグメント化し、最後に各文字を既知のパターンとマッチングします。当社のOCRは特殊文字を含む複数の言語をサポートしています。認識後、抽出されたテキストは選択した出力形式に埋め込まれます。視覚的な外観を維持しながら隠れたテキストレイヤーを追加する検索可能なPDF、またはフルコンテンツ修正用の編集可能なWordドキュメントのいずれかです。
複数ページドキュメントのOCR
当社の複数ページOCRツールでドキュメントセット全体を効率的に処理します。複数の画像を一度にアップロードし、複数ページの検索可能なPDFまたはすべてのページを含むDOCXとして結合された出力を受け取ります。これは、本、レポート、通信、アーカイブ記録のデジタル化に最適です。
大きなドキュメントの場合、バッチ処理はページごとの変換と比較して大幅な時間を節約します。当社のツールはページ順序を維持し、ページ間で異なる画像品質を処理し、レビューと使用の準備ができた統合出力を生成します。各ページのオリジナルレイアウトは出力に保持されます。
OCR精度と品質要因
OCR精度はソース画像の品質に大きく依存します。良好なコントラストのクリーンで高解像度のスキャン(300+ DPI)が最良の結果を生み出します。一般的なフォントの印刷テキストでは98〜99%の精度を達成することがよくあります。解像度の低下、コントラストの悪さ、傾いたページ、または珍しいフォントは精度を低下させます。手書きテキストは印刷テキストよりも認識がはるかに困難です。手書きでは精度が低下することが予想されます。
複数の列、テーブル、図、混合コンテンツを持つ複雑なレイアウトはより多くの処理を必要とします。当社のOCRはドキュメント構造の保持を試みますが、非常に複雑なレイアウトは変換後に手動調整が必要な場合があります。最良の結果を得るには、サポートされている言語の明確に印刷されたドキュメントのクリーンなスキャンを使用してください。重要なアプリケーションに依存する前にOCR出力を確認してください。
最良のOCR結果を得るためのヒント
ドキュメントを300 DPI以上でスキャンしてください。解像度が高いほど認識精度が向上します。テキストと背景の間に良好なコントラストを確保してください。可能であれば、色あせたり黄ばんだりしたページは避けてください。OCRがテキスト行を正しく検出するために、ページを真っすぐに(傾けずに)スキャンしてください。写真の場合、テキスト領域全体に影なく均一な照明を確保してください。
ドキュメントに適した正しい言語を選択してください。OCRは言語固有の辞書と文字セットを使用します。変換後、特にOCRエラーが最も一般的な数字、固有名詞、専門用語について出力を校正してください。複数ページのドキュメントでは、品質が異なる場合があるため、各ページを確認してください。異なる設定で再処理すると結果が改善される場合に備えて、元のスキャンを保持してください。