Python을 통해 Doc/Docx를 HTML로 변환
Word 문서를 HTML 형식으로 변환함으로써 문서 내용을 웹 페이지에 쉽게 배포하여 다른 사람들과 공유하거나 온라인으로 읽을 수 있습니다. 또한 웹 개발자들에게는 웹 환경에서 Word 문서의 내용을 사용하고 표시할 수 있는 더 많은 유연성을 제공합니다. 아래는 Python을 사용하여 Doc/Docx 파일을 HTML로 변환하는 방법에 대한 소개입니다.
도구
Visual Studio Code
이 라이브러리는 "Word 문서 만들기", "Word를PDF로 변환" 등과 같은 Python 플랫폼에서 Word 문서 처리를 지원합니다.
설치 방법
VS Code에 Spire.Doc for Python 및 plum-disatch v1.7.4를 설치합니다.
먼저 Python을 다운로드하여 설치합니다.
VS Code에서 "Extensions"를 클릭하고 "Python"을 검색하여 설치합니다.
"Explorer" - "NO FOLRDER OPENED" - "Open Folder"를 클릭합니다.
폴더를 선택하고 그 안에 ".py" 파일을 만듭니다.
"Terminal" - "New Terminal"을 클릭합니다.
명령을 입력하다:pip install Spire.Doc
샘플 코드
Doc/Docx를 HTML로 변환
Document 인스턴스를 생성하고 Word 문서를 로드합니다. 그런 다음Document.SaveToFile(fileName string, FileFormat.Html)메서드를 호출하여 HTML 파일로 저장합니다.
from spire.doc import *
from spire.doc.common import *
# 문서 인스턴스 생성
document = Document()
# doc 또는 docx 문서 로드
document.LoadFromFile("Sample.docx")
# HTML로 저장
document.SaveToFile("Result1.html", FileFormat.Html)
document.Close()Doc/Docx를 HTML로 변환할 때 내보내기 옵션 설정
변환 시에는 HtmlExportOptions 클래스를 사용하여 내보내기 옵션을 설정할 수도 있습니다. 예를 들어, CSS, 이미지 등을 포함할지 여부 등을 설정할 수 있습니다. 자세한 내용은 코드를 참조해주십시오.
from spire.doc import *
from spire.doc.common import *
# 문서 인스턴스 생성
document = Document()
# doc 또는 docx 문서 로드
document.LoadFromFile("Sample.docx")
# CSS 스타일 임베드
document.HtmlExportOptions.CssStyleSheetFileName = "sample.css"
document.HtmlExportOptions.CssStyleSheetType = CssStyleSheetType.External
# 이미지를 임베드할지 여부 설정
document.HtmlExportOptions.ImageEmbedded = False
document.HtmlExportOptions.ImagesPath = "Images/"
# 양식 필드를 일반 텍스트로 내보낼지 여부 설정
document.HtmlExportOptions.IsTextInputFormFieldAsText = True
# HTML로 저장
document.SaveToFile("Result2.html", FileFormat.Html)
document.Close()