OCR은 편하지만 자동 추정이라 오류가 섞입니다.
페이지 왜곡, 구획(행/열) 문제부터 자주 틀리는 글자 유형까지, 샘플 검수와 수정 기록을 남겨 다시 확인 가능한 텍스트로
만드는 방법을 정리합니다.

OCR은 편리하지만 확정 텍스트는 아닙니다
OCR은 이미지 속 글자를 텍스트로 “변환”한다기보다, 여러 후보 중 “가장 그럴듯한” 결과를 내놓는 과정에 가깝습니다.
페이지가 비뚤어지거나(기울기), 여백과 경계선이 섞이면 행 분리가 무너지고 결과가 급격히 나빠질 수 있다는 점도
OCR 도구 문서에서 반복됩니다.
함께 읽으면 좋은 글
2026.01.07 - [문헌학] - 디지털 고전자료 인용법: OCR 오류와 영구 링크로 좌표 고정하기
디지털 고전자료 인용법: OCR 오류와 영구 링크로 좌표 고정하기
디지털 고전자료 인용은 OCR 오류, 링크 변경, 판본 혼동이 변수입니다.스캔 이미지로 인용을 확정하고 영구 링크로 좌표를 고정하며, 각주 한 줄 기록 요령을 예시로 정리합니다. “출처를 적었
sy21chichi.com
용어 풀이
OCR(Optical Character Recognition): 이미지에 있는 글자를 기계가 텍스트로 인식해 출력하는 기술입니다.
인용 단계 전에 필요한 것: OCR 검수와 정리
좌표를 고정해 각주를 완성하는 일과, OCR 결과를 “작업 가능한 텍스트”로 만드는 일은 성격이 다릅니다.
이 글은 후자에 집중합니다.
목표는 간단합니다.
1) OCR을 그대로 믿지 않고,
2) 틀리기 쉬운 구간을 먼저 잡고,
3) 수정 흔적을 남겨 나중에 다시 확인 가능하게 만드는 것입니다.
검수 순서는 이렇게 갑니다: 이미지에서 기록까지 4단계
첫째, 이미지 상태부터 봅니다. 기울기(사선), 그림자, 번짐은 OCR의 출발점을 망가뜨립니다.
둘째, 구획(레이아웃) 오류를 확인합니다.
다단(두 칼럼) 페이지에서 열 순서가 뒤섞이거나, 머리말, 쪽수, 주석이 본문에 섞이는 일이 흔합니다. (신문/잡지 OCR 실무에서는 ALTO 같은 구조 정보를 함께 쓰는 관행이 있습니다.)
셋째, 문자 수준 오류를 잡습니다. ‘획이 비슷한 글자’ ‘옅은 먹’ ‘붙어 있는 글자’에서 오인이 집중됩니다.
넷째, 무엇을 어떻게 고쳤는지 한 줄이라도 남깁니다. 기록이 없으면, 다음에 같은 실수를 반복합니다.
용어 풀이
구획(레이아웃): 페이지에서 본문/주석/제목/쪽수/열(칼럼) 같은 영역을 나누는 구조입니다.
OCR은 주로 여기서 흔들립니다: 대표 오류 6가지
1) 기울기, 왜곡: 행이 비스듬하면 줄 인식이 무너집니다.
2) 열 순서 뒤섞임: 두 칼럼을 한 줄로 읽거나, 오른쪽 열을 먼저 붙이는 경우.
3) 머리말/쪽수 혼입: 페이지 상단 정보가 본문 첫 줄로 들어옵니다.
4) 붙어 읽기/띄어쓰기 붕괴: 글자 간격이 좁으면 단어 경계가 사라집니다.
5) 구두점, 표점 오류: 점/쉼표/괄호가 빠지거나 다른 기호로 바뀝니다(이때 문장 의미가 달라집니다).
6) 반복, 누락: 줄을 한 번 더 읽거나, 한 줄을 통째로 건너뛰는 유형(“눈이 미끄러진” 결과)이 나옵니다.
함께 읽으면 좋은 글
2026.01.09 - [문헌학] - 필사 오류 패턴 읽는 법: 반복, 누락, 혼동을 근거로 정리하기
필사 오류 패턴 읽는 법: 반복, 누락, 혼동을 근거로 정리하기
사본 사이의 차이는 ‘다름’이 아니라 ‘왜 그렇게 달라졌는지’로 판단해야 합니다.필사 과정에서 자주 생기는 오류 패턴을 익히고, 변이를 근거로 정리하는 실전 루틴을 제시합니다. 차이는
sy21chichi.com
샘플링 검수: 전부 고치려 하지 말고 ‘위험 구간’만 먼저 봅니다
OCR을 전면 교정하려고 시작하면 지속이 어렵습니다.
대신 샘플링으로 품질을 분류해 두면 실용적입니다.
예를 들어 한 자료에서
1) 첫 페이지, 2) 가장 옅은 페이지, 3) 표/주석이 많은 페이지를 골라 1~2분씩만 훑어봅니다.
이 세 곳이 무너지면 전체도 비슷하게 무너질 가능성이 큽니다.
정량 지표가 필요하면 문자 오류율(CER), 단어 오류율(WER) 같은 지표가 자주 쓰입니다.
다만 여기서는 숫자를 외우기보다 “신뢰 구간(높음/보통/낮음)”을 표시해 두는 것만으로도 충분합니다.
용어 풀이
CER/WER: OCR 결과가 정답 텍스트와 비교해 얼마나 틀렸는지(문자/단어 단위) 비율로 계산하는 지표입니다.
예시 1개: OCR 한 줄을 작업용 텍스트로 다듬기
OCR 원문(예) : “그는 이듬해 도성에 들어가 ㅅㅏ신을 뵈었다.”
검수 후(예) : “그는 이듬해 도성에 들어가 사신을 뵈었다.”
여기서 중요한 건 “정답 맞히기”보다, 무엇이 왜 틀리기 쉬운지(유사 글자/옅은 획/붙어 읽기)를 기록으로 남겨
다음 페이지에서도 같은 유형을 먼저 보게 만드는 것입니다.
기록의 핵심은 두 가지입니다: 무엇을 바꿨고, 왜 바꿨는지
검수한 텍스트를 근거로 쓰려면, 수정 흔적이 남아 있어야 안전합니다.
가장 간단한 방법은 원본 OCR 텍스트 파일을 그대로 보존하고, 수정본은 날짜와 버전으로 분리하는 것입니다.
이미지 품질을 OCR에 맞추느라 원본 이미지를 희생하면 안 된다는 취지의 디지타이징 가이드도 있습니다.
함께 읽으면 좋은 글
2026.01.13 - [문헌학] - 연구노트 최소 규칙: 다시 확인되는 근거를 남기는 기록법
연구노트 최소 규칙: 다시 확인되는 근거를 남기는 기록법
연구노트는 결과를 늘리는 수단이 아니라, 근거로 되돌아가는 길을 남기는 기록입니다.판, 버전, 좌표, 변경 이력을 최소 항목으로 고정해 시간이 지나도 다시 검증되는 기록 습관을 정리합니다
sy21chichi.com
결정 로그(검수용) 1줄 예시
2026-01-13 / p.145 / 다단 페이지라 열 순서를 먼저 정리했고, 머리말 2줄은 본문에서 빼고, 유사 글자 오인 6건을
손으로 고쳐 v02로 저장함.
용어 풀이
로그: 언제 무엇을 어떻게 처리했는지 남겨 두는 작업 기록입니다.
이 글에서는 검수와 수정의 핵심만 한 줄로 남기는 방식을 뜻합니다.
OCR 결과는 먼저 찾는 데 쓰고, 근거는 따로 확정합니다
기관 자료에서도 OCR은 검색과 접근성을 높이는 도구로 활용되지만, 품질과 한계를 전제로 운용됩니다.
그래서 실무에서는 OCR을 “빠른 탐색(검색용)”으로 쓰고, 실제 인용과 판단은 스캔 이미지(또는 확인된 전사)로 확정하는
편이 안전합니다. 이 경계를 세워두면, 글자 하나 때문에 전체 결론이 흔들리는 일을 줄일 수 있습니다.
마무리하며 , OCR보다 중요한 건 검수 기록입니다
좋은 OCR 전략은 완벽한 자동화를 꿈꾸는 것이 아니라, 틀리는 지점을 빠르게 찾아내고 기록으로 남기는 습관에 가깝습니다.
이미지 상태(기울기/그림자)와 구획(열/머리말)을 먼저 잡고, 위험 구간을 샘플링으로 분류한 뒤, 수정은 버전과 한 줄 로그로
남겨 두면 됩니다.
그러면 OCR 결과는 단순 편의 기능을 넘어, 다시 확인 가능한 텍스트가 됩니다.
자주 하는 질문(FAQ)
Q. OCR이 있는 디지털 자료면 그대로 인용해도 되나요?
A. 인용은 OCR 텍스트가 아니라 스캔 이미지(또는 검수된 전사) 기준으로 확정하는 편이 안전합니다.
OCR은 오인이 섞일 수 있고, 페이지 구조를 잘못 읽는 경우도 있습니다.
Q. 전부 교정해야 하나요?
A. 꼭 그렇지 않습니다. 먼저 샘플링으로 품질을 분류하고, 인용에 걸리는 구간과 오류가 몰리는 페이지부터 교정하는 방식이
지속됩니다.
Q. 다단(두 칼럼) 자료가 특히 어려운 이유는 뭔가요?
A. 열 순서와 영역(머리말/쪽수/주석) 분리가 무너지면 본문이 섞여 들어가 결과가 크게 흔들립니다.
Q. CER/WER 같은 지표를 꼭 써야 하나요?
A. 필수는 아닙니다. 다만 품질을 숫자로 공유해야 할 때 CER/WER가 흔히 쓰이는 지표입니다.
관련 참고자료
Tesseract 문서: OCR 품질 개선(기울기·경계 등) (Tesseract OCR)
EuropeanaTech Insight: OCR(현장 과제·사례) (Europeana PRO)
EU/EDPB 문서: OCR 정확도 측정(CER/WER 등) (edpb.europa.eu)
NARA(미국 국립문서기록관리청) 디지타이징 기술 가이드(이미지 품질과 OCR 언급) (National Archives)
Library of Congress NDNP: 기술 사양 개요(ALTO·검증 도구 언급) (The Library of Congress)
FADGI 문화유산 디지타이징 기술 가이드(품질관리·문서화 강조) (digitizationguidelines.gov)
'문헌학' 카테고리의 다른 글
| 디지털 문헌학 입문: 스캔, 촬영 품질의 최소 기준 (0) | 2026.01.13 |
|---|---|
| 연구노트 최소 규칙: 다시 확인되는 근거를 남기는 기록법 (0) | 2026.01.13 |
| 서지 작성법: 판사항 , 권차 , 소장처까지 빠짐없이 적기 (0) | 2026.01.12 |
| 교감기 읽는 법: 기호와 약어를 뜻으로 푸는 가장 쉬운 순서 (0) | 2026.01.11 |
| 번역의 문헌학: 직역 의역보다 중요한 ‘근거를 남기는 번역’ (1) | 2026.01.11 |