Java 프로그램을 통해 Word에서 텍스트 추출
Word 문서에서 텍스트를 추출하는 것은 일반적인 요구 사항입니다. 우리는 직접 복사하여 지정된 파일에 붙여넣을 수 있습니다. 그러나 이 방법은 텍스트 내용이 적을 때 더 적합합니다. 수동으로 저장하는 데 시간과 노력이 많이 들기 때문에 프로그래밍 언어를 사용하여 한 번에 Word 문서에서 대량의 내용을 추출할 수 있습니다. 여기에서는 Java 프로그램을 사용하여이 기능을 구현하는 방법에 대해 소개하겠습니다. 사용하는 제품은 Free Spire.Doc for Java입니다. 자세한 작업 및 코드는 아래 내용을 참조하십시오.
필요한 도구
IntelliJ IDEA 2018 (jdk 1.8.0)
Free Spire.Doc for Java는 Word 문서 생성, 편집 및 변환을 지원하는 무료 Java 라이브러리입니다. 단, 이용시 일부 페이지 제한이 있을 수 있습니다.
또는 직접 상용 버전 체험판을 신청하세요.
상용 버전 Spire.Doc for Java
무료 시험판 Temporary License
준비 작업
다음 링크에서Free Spire.Doc for Java를 다운로드하고 압축을 푸세요.
IDEA에서 새 프로젝트를 만들고 열어주세요.
File > Project Structure > Modules >Dependencies을 차례로 클릭합니다.
"+"에서 JAR or Directories를 선택합니다.
압축 해제된 lib 폴더에서 Spire.doc.jar를 찾아 해당 파일을 프로젝트에 추가하세요.
샘플 코드
import com.spire.doc.Document;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractText {
public static void main(String[] args) throws IOException {
//Word 문서 로드
Document document = new Document();
document.loadFromFile("sample.docx");
//문서에서 텍스트 추출하여 String으로 저장
String text=document.getText();
//String을 txt파일로 작성
writeStringToTxt(text,"ExtractedText.txt");
}
public static void writeStringToTxt(String content, String txtFileName) throws IOException {
FileWriter fWriter= new FileWriter(txtFileName,true);
try {
fWriter.write(content);
}catch(IOException ex){
ex.printStackTrace();
}finally{
try{
fWriter.flush();
fWriter.close();
} catch (IOException ex) {
ex.printStackTrace();
}
}
}
}