Python을 통해 PDF에서 텍스트를 일괄 추출하는 방법

PDF 파일은 문서 형식의 일상 업무에서 매우 일반적으로 사용됩니다. 때로는 후속 처리를 위해 PDF에서 텍스트를 추출해야 할 때가 있습니다. 문서 수가 적은 경우 수동으로 복사하여 붙여넣기하여 텍스트를 추출할 수도 있습니다. 그러나 여러 PDF 파일의 텍스트를 추출해야하는 경우 더 빠른 방법은 자동화 된 추출 방법을 프로그래밍하는 것입니다. 아래에서는 Python을 예제로 사용하여 PDF 또는 지정된 텍스트에서 모든 텍스트를 추출하는 방법을 소개합니다.

프로그램 라이브러리

이 글에서는 Spire.PDF for Python과 Visual Studio Code를 사용하겠습니다. 이 라이브러리는 Python 플랫폼에서 PDF 문서 편집 및 변환을 지원합니다. 또한 이 프로세스를 사용하기 위해 타사 소프트웨어를 설치할 필요가 없습니다.

주소 다운로드: Spire.PDF for Python

설치 방법

' Python '을 다운로드하여 설치한 후 VS Code에서 ' Extensions '을 클릭하고 ' Python '을 검색하여 설치합니다.
' Explorer ' - ' NO FOLRDER OPENED ' - ' Open Folder '
폴더를 선택하고 '.py' 파일을 추가합니다.
' Terminal ' - ' New Terminal '
다음 명령을 입력하여 Spire.PDF for Python 및 plum-dispatch v1.7.4를 설치합니다.

pip install Spire.PDF

코드 예제

PDF에서 모든 텍스트 추출

from spire.pdf import *
from spire.pdf.common import *

#PdfDocument 클래스의 인스턴스를 생성합니다
pdf = PdfDocument()

#PDF 문서를 로드합니다
pdf.LoadFromFile("Sample.pdf")

#추출된 텍스트를 저장할 TXT 파일을 생성합니다.
extractedText = open("…/ExtractedAllText.txt", "w", encoding="utf-8")

#문서의 페이지를 반복합니다.
for i in range(pdf.Pages.Count):

    #페이지 가져오기
    page = pdf.Pages.get_Item(i)

    #페이지에서 텍스트 추출
    text = page.ExtractText()

    #텍스트 파일에 텍스트 쓰기
    extractedText.write(text + "\n")

extractedText.close()
pdf.Close()

위 코드에서 먼저 PdfDocument 객체를 생성하고 PDF 문서를 로드합니다. 그런 다음 모든 페이지를 가로지르고 PdfPageBase.ExtractText () 메서드를 호출하여 텍스트를 추출합니다.

PDF에서 특정 범위의 텍스트 추출

from spire.pdf import *
from spire.pdf.common import *

#PdfDocument 클래스의 객체를 생성합니다.
pdf = PdfDocument()

#PDF 문서 로드
pdf.LoadFromFile("Sample.pdf")

#첫 페이지 가져오기
page = pdf.Pages.get_Item(0)

#페이지의 직사각형 영역에서 텍스트 추출하기
text = page.ExtractText(RectangleF(90.0, 220.0, 770.0, 130.0))

#추출한 텍스트를 텍스트 파일에 저장합니다.
extractedText = open("…/ExtractedText.txt", "w", encoding="utf-8")
extractedText.write(text)
extractedText.close()
pdf.Close()

특정 범위의 텍스트를 추출하려면 먼저 PdfTextExtractor 객체를 생성한 다음 ExtractArea 속성을 통해 범위를 지정합니다. 마지막으로 PdfTextExtractor.ExtractText () 메서드를 호출하여 범위 내의 텍스트를 추출합니다.

그래도 PDF에서 이미지를 추출하려면 이 문서를 참조하세요:

Python: Extract Text and Images from PDF Documents

프로그램 라이브러리

설치 방법

코드 예제

PDF에서 모든 텍스트 추출

PDF에서 특정 범위의 텍스트 추출

이벤트 목록