다중 PNG에서 텍스트 추출 (OCR)

여러 PNG 이미지에서 텍스트를 추출하고 결합된 결과를 확인합니다. 클립보드에 텍스트를 복사하거나 TXT로 다운로드합니다.

PNG

tool.page.format.png

OCR 텍스트 인식 작동 방식

OCR(광학 문자 인식)은 텍스트 이미지를 분석하여 실제 편집 가능한 문자로 변환합니다. 스캔 문서나 사진을 업로드하면 OCR 엔진이 픽셀 패턴을 검사하여 문자, 숫자, 기호를 식별합니다. 최신 OCR은 고급 알고리즘을 사용하여 낮은 해상도, 기울어진 페이지, 다양한 글꼴, 열, 표, 혼합 콘텐츠가 있는 복잡한 레이아웃과 같은 어려운 조건에서도 텍스트를 인식합니다.

인식 처리는 단계별로 진행됩니다: 먼저 이미지에서 텍스트 영역을 감지하고, 개별 문자를 분리한 다음, 각 문자를 알려진 패턴과 매칭합니다. OCR은 특수 문자가 포함된 언어를 포함하여 여러 언어를 지원합니다. 인식 후 추출된 텍스트는 선택한 출력 형식에 포함됩니다. 시각적 모양을 유지하면서 숨겨진 텍스트 레이어를 추가하는 검색 가능한 PDF 또는 전체 콘텐츠 수정을 위한 편집 가능한 Word 문서로 저장됩니다.

다중 페이지 문서 OCR

다중 페이지 OCR 도구로 전체 문서 세트를 효율적으로 처리하세요. 한 번에 여러 이미지를 업로드하고 결합된 출력을 받으세요—다중 페이지 검색 가능한 PDF 또는 모든 페이지가 포함된 DOCX. 이는 책, 보고서, 서신, 보관된 기록을 디지털화하는 데 이상적입니다.

대용량 문서의 경우 일괄 처리는 페이지별 변환에 비해 상당한 시간을 절약합니다. 도구는 페이지 순서를 유지하고, 페이지 간 다양한 이미지 품질을 처리하며, 검토 및 사용 준비가 된 통합 출력을 생성합니다. 각 페이지의 원래 레이아웃은 출력에서 보존됩니다.

OCR 정확도 및 품질 요인

OCR 정확도는 소스 이미지 품질에 크게 의존합니다. 좋은 대비를 가진 깨끗하고 고해상도 스캔(300+ DPI)이 최상의 결과를 생성합니다. 일반적인 글꼴로 인쇄된 텍스트의 경우 종종 98-99%의 정확도를 보입니다. 낮은 해상도, 열악한 대비, 기울어진 페이지 또는 특이한 글꼴은 정확도를 낮춥니다. 손글씨 텍스트는 인쇄된 텍스트보다 인식하기 훨씬 어렵습니다. 손글씨의 경우 더 낮은 정확도를 예상하세요.

여러 열, 표, 그림, 혼합 콘텐츠가 있는 복잡한 레이아웃은 더 많은 처리가 필요합니다. OCR은 문서 구조를 보존하려고 시도하지만, 매우 복잡한 레이아웃은 변환 후 수동 조정이 필요할 수 있습니다. 최상의 결과를 위해 지원되는 언어로 명확하게 인쇄된 문서의 깨끗한 스캔을 사용하세요. 중요한 응용 프로그램에 의존하기 전에 OCR 출력을 검토하세요.

최상의 OCR 결과를 위한 팁

문서를 300 DPI 이상으로 스캔하세요. 해상도가 높을수록 인식 정확도가 향상됩니다. 텍스트와 배경 사이의 대비가 좋은지 확인하세요. 가능하면 바래거나 누렇게 변색된 페이지는 피하세요. OCR이 텍스트 줄을 올바르게 감지할 수 있도록 페이지를 똑바로(기울어지지 않게) 스캔하세요. 사진의 경우 텍스트 영역 전체에 그림자 없이 균일한 조명을 확보하세요.

문서에 맞는 올바른 언어를 선택하세요. OCR은 언어별 사전과 문자 집합을 사용합니다. 변환 후 출력을 교정하세요. 특히 OCR 오류가 가장 흔한 숫자, 고유 명사, 전문 용어를 확인하세요. 다중 페이지 문서의 경우 품질이 다를 수 있으므로 각 페이지를 확인하세요. 다른 설정으로 재처리하면 결과가 개선될 수 있으므로 원본 스캔을 보관하세요.

Extract Text from PNGs (OCR) | File Converter Lab