Java를 사용하여 PDF에서 모든 텍스트 추출하기

PDF에서 텍스트를 추출하는 것은 문서 내용을 편집 가능하거나 검색 가능한 텍스트로 변환하는 것을 의미합니다. 적절한 PDF 처리 라이브러리와 도구를 사용하여 PDF 파일의 페이지 구조를 구문 분석하고 텍스트 정보를 추출할 수 있습니다. 추출된 텍스트는 텍스트 파일에 저장되어 추가적인 편집, 분석 또는 검색에 사용할 수 있습니다. 아래에는 자세한 추출 방법이 나와 있습니다.

필요한 도구

1. Free Spire.PDF for Java

2. IntelliJ IDEA 2018 (jdk 1.8.0)

준비 작업

1. 다음 링크에서Free Spire.PDF for Java를 다운로드하고 압축을 푸세요.

2. IDEA에서 새 프로젝트를 만들고 열어주세요.

3. "File"-"Project Structure"-"Modules"-"Dependencies"을 차례로 클릭합니다.

4. "JAR or Directories" 아래에 있는 초록색 플러스 기호를 선택합니다.

5. 압축 해제된 lib 폴더에서 "Spire.PDF.jar"를 찾아 해당 파일을 프로젝트에 추가하세요.

예제 코드

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import com.spire.pdf.texts.PdfTextExtractOptions;
import com.spire.pdf.texts.PdfTextExtractor;

import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;

public class ExtractTextFromPage {

    public static void main(String[] args) throws IOException {

        // PdfDocument 개체 생성
        PdfDocument doc = new PdfDocument();

        // PDF 파일 로드
        doc.loadFromFile("sample.pdf");

        // 두 번째 페이지 가져오기
        PdfPageBase page = doc.getPages().get(1);

        // PdfTextExtractor 개체 생성
        PdfTextExtractor textExtractor = new PdfTextExtractor(page);

        // PdfTextExtractOptions 개체 생성
        PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();

        // 페이지에서 텍스트 추출
        String text = textExtractor.extract(extractOptions);

        // txt 파일로 작성
        Files.write(Paths.get("output/Extracted.txt"), text.getBytes());
    }
}

이 코드는 PdfTextExtractor 객체를 생성하여 페이지에서 텍스트를 추출합니다. 그런 다음 텍스트 추출 옵션을 설정하기 위해 PdfTextExtractOptions를 생성합니다. 마지막으로 추출된 텍스트를 지정된 경로에 저장합니다.

또한이 라이브러리는 PDF에 대한 다른 작업도 지원합니다. 예를 들어 "PDF를 Word로 변환", "PDF 문서 생성" 등이 있습니다.

필요한 도구

준비 작업

예제 코드

#text 목록