[최적화 컨설팅/작업] 고수님들의 도움을 부탁드립니다.
1. 프로젝트 개요 현재 RTX 5090 (24GB VRAM) 단일 서버에서 CosyVoice(TTS)를 서빙 중입니다. 단일 요청 처리는 실시간성(2초 이내)을 만족하나, 동시 요청 발생 시 Queue가 쌓이며 실시간 처리가 불가능한 상황입니다. 이를 기술적으로 해결해주실 AI 서빙 최적화 전문가를 찾습니다.
2. 현재 환경 및 증상
HW: NVIDIA RTX 5090 (VRAM 32GB 중 약 24GB 점유)
SW: TensorRT 적용됨, Python 기반 백엔드 추정
현상:
CosyVoice가 음성 인코딩 시 GPU를 독점적으로 사용하여, 동시에 들어오는 요청을 처리하지 못함.
현재 개발사는 "CosyVoice 특성상 인코딩 시 GPU 독점 사용이 필수라 하드웨어 추가 없이는 개선 불가"라고 주장함.
3. 의뢰 목표 현 개발사의 주장(하드웨어 한계)이 기술적으로 타당한지 검증하고, 소프트웨어 레벨에서 동시성을 확보하는 것입니다.
4. 주요 요구 사항
아키텍처 진단: Python GIL, CUDA Stream 관리 미흡, 동기(Sync) 처리 방식 등으로 인한 병목인지 확인
최적화 솔루션 제안 및 적용:
NVIDIA Triton Inference Server (Dynamic Batching) 도입 가능성 검토
NVIDIA MPS (Multi-Process Service) 적용을 통한 Context Switching 오버헤드 감소
비동기(AsyncIO) 및 Multi-stream 구성을 통한 GPU Compute Capability 유휴 자원 활용
산출물: 최적화 가이드 리포트 또는 실제 서빙 코드 개선 (PoC)
재택으로 업무가능하시며 성공시 별도의 사례금도 지급하겠습니다.