이미지나 pdf 파일에서 텍스트 인식|추출하기 - 구글 드라이브

이 글에서는 구글 드라이브를 이용하여 pdf 파일 혹은 이미지에서 텍스트를 추출(OCR)하는 방법에 대해서 설명합니다.

구글 드라이브와 OCR
구글 드라이브를 이용해서 pdf 파일에서 텍스트 추출하기
구글 드라이브를 이용해서 이미지 파일에서 pdf로 변환하여 텍스트 추출하기

구글 드라이브와 OCR

구글 드라이브(Google Drive)는 클라우드 기반 파일 저장 및 공유 서비스입니다. 이 서비스를 사용하면 인터넷에 연결된 모든 기기에서 파일을 업로드, 다운로드, 저장, 공유할 수 있습니다. 구글 드라이브는 구글에서 제공하는 다른 서비스들과 연동되어 있어서, 구글 계정으로 로그인하면 쉽게 접근하고 사용할 수 있습니다.

구글 드라이브를 사용하면 다음과 같은 기능을 제공합니다:

파일 저장 및 백업: 개인 파일, 문서, 사진, 동영상 등을 안전하게 저장할 수 있습니다. 파일은 온라인으로 저장되기 때문에 로컬 컴퓨터의 용량을 차지하지 않습니다.

파일 공유: 구글 드라이브에서 저장한 파일을 다른 사람과 쉽게 공유할 수 있습니다. 공유 링크를 생성하여 다른 사람이 링크를 통해 파일에 접근할 수 있도록 설정할 수 있습니다.

협업: 구글 문서, 스프레드시트, 프레젠테이션 등의 앱을 이용하여 다른 사람들과 함께 문서를 작성하고 수정할 수 있습니다.

스마트 기능: 구글 드라이브에는 기본적으로 OCR(광학 문자 인식), 자동 태깅 등의 기능이 탑재되어 있어서, 파일을 찾고 관리하는 것이 쉬워집니다.

구글 드라이브는 기본 용량으로 15GB를 무료로 제공하고 있습니다. 더 많은 용량이 필요한 경우 구글 드라이브에서 유료 구독을 통해 용량을 늘릴 수 있습니다.

OCR(광학 문자 인식, Optical Character Recognition)은 이미지나 스캔한 문서에서 텍스트를 자동으로 인식하여 디지털로 변환하는 기술입니다. OCR은 이미지 상의 문자를 모양과 크기, 색상 등의 특성을 분석하여 문자로 인식하고, 인식된 문자를 편집 가능한 텍스트 파일로 변환하는 기술을 말합니다.

OCR은 다양한 문서 형태에서 적용 가능하며, 스캔한 문서, 수기로 작성한 글씨, 출판물, 팩스 등의 이미지에서도 인식이 가능합니다. OCR은 큰 양의 문서를 처리하거나, 인쇄가 불가능한 문서를 디지털로 전환할 때 매우 유용한 기술입니다.

OCR은 다양한 분야에서 활용됩니다. 예를 들어, 문서 관리 시스템에서 스캔한 문서를 OCR 기술을 이용하여 텍스트로 변환하면, 검색 기능을 활용하여 보다 쉽게 원하는 문서를 찾을 수 있습니다. 또한, 대량의 도서를 디지털화하여 전자책으로 만드는 과정에서도 OCR 기술이 활용됩니다.

저의 경우에는 문서의 내용을 읽고 정리해서 블로그에 올리는데, 편집이나 하나하나 타이핑 하는 것을 보조하는 용도로 사용합니다.

또, 텍스트 파일의 경우 속도나 용량 측면에서 pdf 파일이나 이미지보다 좋아서 전자책 뷰어에서 보기가 편리합니다.

구글 드라이브를 이용해서 pdf 파일에서 텍스트 추출하기

구글 드라이브에 pdf 파일을 올려놓고 해당 파일을 Google 문서로 변환하여 pdf 파일에서 글자를 추출할 수 있습니다.

중요한 점은 지금까지 사용한 다른 문자인식(OCR) 사이트 어느곳과도 비교할 수 없는 품질을 보여줍니다.

사진이 많이 흔들린 상태에서 pdf로 만든 내용들에 대해서도 매우 좋은 품질로 문자인식이 가능했습니다.

먼저 구글 드라이브에서 새로만들기 > 새폴더를 클릭하여 테스트용 폴더를 만듭니다.

테스트용 폴더를 만들었으면 만든 폴더로 이동합니다. 문자인식을 하고 싶은 pdf 파일을 해당 폴더에 올려놓습니다.

파일이 업로드가 다된 것을 확인하면 마우스 오른쪽 버튼을 누르고 연결앱 > google 문서를 클릭하여 변환해 줍니다.

이제 모든 절차가 끝났으니 기다리기만하면 됩니다.

아래와 같이 pdf 파일이 구글 문서가 되어서 텍스트로 출력되었습니다. 글꼴형식등은 사실 관계 없습니다. 제가 추출하고자 했던것은 글자입니다. 이 내용들은 거의 완벽에 가깝게 인식되어서 복사 후 노트패드(메모장)와 같은 일반 텍스트 편집기에 넣으면 바로 읽을 수 있는 수준입니다.