光学文字認識
OCR(光学文字認識)は、テキストの画像を実際の編集可能なテキストに変換します。スキャンされたドキュメント、ページの写真、画像ベースのPDFは、OCR処理後に検索可能で編集可能になります。当社のツールは複数の言語のテキストを認識し、ドキュメントのレイアウトを保持し、選択した形式で出力します:元と同じ外観で選択可能なテキストを持つ検索可能なPDF、または完全なコンテンツ編集用の編集可能なWordドキュメント。紙のアーカイブのデジタル化、スキャンからのデータ抽出、ドキュメントのアクセシビリティ向上に最適です。
OCR技術の仕組み
光学式文字認識は、画像を分析してテキストパターンを識別します。プロセスは画像の前処理から始まります。コントラストの調整、傾きの補正、ノイズの除去を行います。次にOCRエンジンは画像をテキスト領域、行、単語、個々の文字にセグメント化します。各文字の形状は既知のパターンと照合され、対応する文字、数字、または記号が決定されます。
現代のOCRは、数百万のドキュメントサンプルで訓練された機械学習モデルを使用しています。これらのモデルは、さまざまなフォント、サイズ、スタイルの文字を高精度で認識します。古いOCRシステムでは読み取りが困難だった、コピー、色あせたドキュメント、低解像度スキャンからの劣化したテキストも処理できます。
OCRのためのドキュメント品質の最適化
スキャン品質はOCR精度に直接影響します。300 DPI(ドット/インチ)以上を目指してください。これにより、信頼性の高い文字認識に十分な詳細が得られます。スポットや筋を避けるため、スキャン前にスキャナーのガラスを清掃してください。テキスト行の検出を混乱させる傾きを最小限に抑えるため、ドキュメントを平らにまっすぐ置いてください。
写真撮影したドキュメントの場合、テキスト全体に影のない均一な照明を確保してください。遠近法の歪みを避けるため、カメラをドキュメント表面に対して平行に持ってください。ドキュメントの端に密着してトリミングし、JPEG(テキスト周りに圧縮アーティファクトを追加)ではなくPNG形式(ロスレス)で保存してください。
検索可能なPDFと編集可能なDOCXの選択
検索可能なPDF出力は、見えないテキストレイヤーを追加しながら、オリジナルドキュメントの外観を正確に保持します。これにより、ドキュメント内で検索したり、テキストを選択してコピーしたりできますが、オリジナルスキャンの視覚的忠実度は維持されます。歴史的ドキュメント、法的記録、または視覚的な信頼性が重要なドキュメントのアーカイブに最適です。
DOCX出力は、テキスト、フォーマット、レイアウトを変更できる完全に編集可能なドキュメントを作成します。OCRエンジンは段落構造、フォント、基本的なフォーマットを再現しようとします。コンテンツを改訂したり、再利用するためにセクションを抽出したり、スキャンしたテキストを他のドキュメントに統合したりする必要がある場合はDOCXを使用してください。
複数ページドキュメントのOCR
当社の複数ページOCRツールでドキュメントセット全体を効率的に処理します。複数の画像を一度にアップロードし、複数ページの検索可能なPDFまたはすべてのページを含むDOCXとして結合された出力を受け取ります。これは、本、レポート、通信、アーカイブ記録のデジタル化に最適です。
大きなドキュメントの場合、バッチ処理はページごとの変換と比較して大幅な時間を節約します。当社のツールはページ順序を維持し、ページ間で異なる画像品質を処理し、レビューと使用の準備ができた統合出力を生成します。各ページのオリジナルレイアウトは出力に保持されます。
OCRの言語サポート
当社のOCRは、英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、オランダ語、中国語、日本語、韓国語、アラビア語、ロシア語など25以上の言語をサポートしています。正しい言語を選択すると、言語固有の辞書と文字認識パターンが有効になり、精度が大幅に向上します。
多言語のドキュメントの場合は、主要な言語を選択してください。OCRは二次言語のテキストを認識しますが、それらのセクションでは精度がやや低くなる場合があります。専門的なコンテンツ(医療、法律、技術)で最良の結果を得るには、ドメイン固有の用語での時折のエラーを予想してください。
一般的なOCRアプリケーション
ビジネスユーザーは、検索可能なアーカイブのために契約書、請求書、領収書、通信をデジタル化します。法務チームは全文検索のためにケースファイルとディスカバリードキュメントを変換します。医療機関は患者記録と医療フォームをデジタル化します。教育機関は歴史的ドキュメント、研究資料、希少な出版物をアーカイブします。
政府機関は公的記録を検索可能でアクセス可能にします。研究者は歴史的な新聞、原稿、印刷アーカイブからテキストを抽出します。会計士は分析のために財務記録をデジタル化します。紙のドキュメントを含むあらゆるワークフローがOCRデジタル化の恩恵を受けます。
OCR vs 直接PDF変換:どちらが必要ですか?
すべてのPDFからWordへの変換にOCRが必要なわけではありません。PDFがデジタルで作成された場合(Wordからエクスポート、ソフトウェアで生成、デジタルテキストから作成)、すでに抽出可能なテキストが含まれています。当社のPDFからWordへのコンバーターのような直接変換ツールは、このテキストレイヤーを迅速かつ正確に抽出します。これらのドキュメントにはOCRは不要であり、実際には品質が低下します。
OCRはPDFに画像のみが含まれている場合に不可欠になります:スキャンした紙のドキュメント、撮影したページ、ファックス、または画像ファイルから作成されたPDF。これらは視覚的にはテキストとして表示されますが、実際のテキストデータは含まれていません。テキストの画像だけです。当社のOCRツールはこれらの画像を分析し、文字を認識し、実際の編集可能なテキストを作成します。PDF内のテキストを選択できない場合は、OCRが必要です。
スキャンしたドキュメントの処理に関する包括的なガイダンスについては、OCRを使用してスキャンしたPDFを編集可能なWordドキュメントに変換する詳細なガイドをお読みください。準備のヒント、品質の最適化、一般的な問題のトラブルシューティングをカバーしています。 Learn more about OCR for scanned PDFs
最良のOCR結果を得るためのヒント
準備はOCR精度に大きく影響します。スキャンには、最低300 DPIの解像度で白い背景に黒いテキストを使用してください。スキャナーのガラスを清掃し、ページをまっすぐに揃え、影やしわを避けてください。写真の場合は、均一な照明を確保し、カメラをドキュメントに対して平行に持ち、最高解像度設定を使用してください。
処理前に正しいドキュメント言語を選択してください。これにより言語固有の辞書と文字パターンが有効になります。変換後は、特に数字、固有名詞、専門用語について常に出力を校正してください。OCRは0/O、1/l/I、rn/mなどの類似した文字を混同する可能性があります。スペルチェックを出発点として使用しますが、重要なデータは手動で確認してください。