티스토리 뷰

IT

PDF 텍스트 추출하기 쉽게 따라해봅시다

알 수 없는 사용자 2018. 5. 26. 03:00

문서 처리 업무를 하다보면 

편집이나 카피를 해야하는 경우가 있습니다.

한글이나 워드 문서의 경우에는

블럭을 씌운 후 Ctrl+V를 통해 쉽게 카피가 되지만

 PDF 문서의 경우에는 텍스트가 아닌 이미지의 형태이기 때문에

단순한 방법으로 그 텍스트를 추출할 수 없는데요.


이렇게 이미지 형태로 저장되어있는

PDF 파일의 텍스트를 추출해보겠습니다.




먼저 네이버 검색창에 '알PDF'를 검색합니다.


알 PDF는  무료로 다운로드할 수 있는 프로그램인데요.

이 프로그램으로 PDF의 이미지화된 텍스트를 추출할 수 있습니다.


개발사 다운로드를 통해 다운로드 받고, 바로 설치를 진행합니다. 

설치를 진행할 때에는 반드시 옵션을 확인하시고 

추가적인 프로그램이 다운로드되지 않도록 

체크를 해제해 주는것이 좋습니다.




프로그램이 실행되었는데요. 

텍스트를 추출하려는 파일을 열어줍니다.


처음 파일을 열었을 때 텍스트에 드래그를 하거나

 개체편집을 눌러도 텍스트에 블럭이 씌어지지 않아서 

텍스트를 복사할 수가 없는데요.

이때, 상단의 '문자인식'이라는 메뉴를 눌러줍니다.


이 메뉴를 클릭하면 바로 실행되는것이 아니라 

추가적으로 OCR인식을 위한 프로그램이 설치됩니다.

약 200Mb 정도의 파일인데요. 

그래픽카드를 이용해 이미지를 스캔하여 

이를 텍스트로 바꾸는 방식이라고 합니다.

따라서 문서가 특이한 글꼴로 되어있거나 

혹은 문서 내에 특수문자가 있는 경우는 

인식하지 못할 수도 있습니다.


문자인식을 진행합니다. 

파일의 크기와 텍스트의 수에 따라서 시간이 걸립니다.


OCR이 모두 진행되었는데요.

이제 상단의 '문구편집'을 누르면 

텍스트에 블록이 씌여지는것을 볼 수 있습니다.


PDF파일에서 텍스트를 추출하는 방법 조금 번거롭지만 

위의 방법을 이용해서 텍스트를 추출하세요.





댓글