OKKY
커뮤니티
Q&A
지식
이벤트
Contact
부트캠프
Jobs
Search Bar
로그인
회원가입
tika
전체
최신순
질문하기
답변
1
gdkorea
·
약 3년
329
0
답변 1
pptx 슬라이드별 텍스트 추출 가능한 오픈소스가 있을까요?
tika 나 POI 다 가능하다고 되어 있어서 테스트는 해보았는데 실제 정확하게 슬라이드별 텍스트 추출이 되지는 않더군요. 전체 텍스트 추출은 되는데 원하는건 슬라이드별 텍스트를 array로 뽑고 싶습니다.
답변
0
Ziso
·
거의 11년
1.3k
0
답변 0
PDF parsing 관련 문의 드립니다.
현재 PDF 의 내용을 읽어와서 특정내용을 파싱하여 DB 로 insert 하는 모듈을 만들고 있습니다. (PDF 의 내용은 html table 과 같은 테이블이 여러개 있고 그안의 데이터를 파싱하고 있습니다. ) PDF 의 내용을 Text 로 추출하느것은 간단하게 구현이 가능한데 너무 정돈되지 않은 형태로 나와서 파싱을 할 수 있는 구분자를 찾을수 없는정도의 상태입니다. Text를 추출하는 쪽말고
Search Bar