Python을 통해 PDF에서 텍스트를 일괄 추출하는 방법
PDF 파일은 문서 형식의 일상 업무에서 매우 일반적으로 사용됩니다. 때로는 후속 처리를 위해 PDF에서 텍스트를 추출해야 할 때가 있습니다. 문서 수가 적은 경우 수동으로 복사하여 붙여넣기하여 텍스트를 추출할 수도 있습니다. 그러나 여러 PDF 파일의 텍스트를 추출해야하는 경우 더 빠른 방법은 자동화 된 추출 방법을 프로그래밍하는 것입니다. 아래에서는 Python을 예제로 사용하여 PDF 또는 지정된 텍스트에서 모든 텍스트를 추출하는 방법을 소개합니다.
프로그램 라이브러리
이 글에서는 Spire.PDF for Python과 Visual Studio Code를 사용하겠습니다. 이 라이브러리는 Python 플랫폼에서 PDF 문서 편집 및 변환을 지원합니다. 또한 이 프로세스를 사용하기 위해 타사 소프트웨어를 설치할 필요가 없습니다.
주소 다운로드: Spire.PDF for Python
설치 방법
' Python '을 다운로드하여 설치한 후 VS Code에서 ' Extensions '을 클릭하고 ' Python '을 검색하여 설치합니다.
' Explorer ' - ' NO FOLRDER OPENED ' - ' Open Folder '
폴더를 선택하고 '.py' 파일을 추가합니다.
' Terminal ' - ' New Terminal '
다음 명령을 입력하여 Spire.PDF for Python 및 plum-dispatch v1.7.4를 설치합니다.
pip install Spire.PDF
코드 예제
PDF에서 모든 텍스트 추출
from spire.pdf import *
from spire.pdf.common import *
#PdfDocument 클래스의 인스턴스를 생성합니다
pdf = PdfDocument()
#PDF 문서를 로드합니다
pdf.LoadFromFile("Sample.pdf")
#추출된 텍스트를 저장할 TXT 파일을 생성합니다.
extractedText = open("…/ExtractedAllText.txt", "w", encoding="utf-8")
#문서의 페이지를 반복합니다.
for i in range(pdf.Pages.Count):
#페이지 가져오기
page = pdf.Pages.get_Item(i)
#페이지에서 텍스트 추출
text = page.ExtractText()
#텍스트 파일에 텍스트 쓰기
extractedText.write(text + "\n")
extractedText.close()
pdf.Close()위 코드에서 먼저 PdfDocument 객체를 생성하고 PDF 문서를 로드합니다. 그런 다음 모든 페이지를 가로지르고 PdfPageBase.ExtractText () 메서드를 호출하여 텍스트를 추출합니다.
PDF에서 특정 범위의 텍스트 추출
from spire.pdf import *
from spire.pdf.common import *
#PdfDocument 클래스의 객체를 생성합니다.
pdf = PdfDocument()
#PDF 문서 로드
pdf.LoadFromFile("Sample.pdf")
#첫 페이지 가져오기
page = pdf.Pages.get_Item(0)
#페이지의 직사각형 영역에서 텍스트 추출하기
text = page.ExtractText(RectangleF(90.0, 220.0, 770.0, 130.0))
#추출한 텍스트를 텍스트 파일에 저장합니다.
extractedText = open("…/ExtractedText.txt", "w", encoding="utf-8")
extractedText.write(text)
extractedText.close()
pdf.Close()특정 범위의 텍스트를 추출하려면 먼저 PdfTextExtractor 객체를 생성한 다음 ExtractArea 속성을 통해 범위를 지정합니다. 마지막으로 PdfTextExtractor.ExtractText () 메서드를 호출하여 범위 내의 텍스트를 추출합니다.
그래도 PDF에서 이미지를 추출하려면 이 문서를 참조하세요:
