AI 서비스 직접 호스팅해서 운영 중이신 분, 스택 어떻게 쓰세요?
오픈소스 기반으로 AI 서비스를 직접 호스팅해서 production 레벨로 운영해보신 분들이 계신지 여쭤보고 싶어서 글을 남깁니다.
Reddit에서 사례를 찾아보면 대체로 두 가지 패턴이 많더라고요.
Agent를 서버리스로 배포하거나, Agent Framework 회사에서 공급하는 SaaS를 활용하는 경우
규모가 커지면 Kubernetes 기반으로 넘어가는 경우
그런데 막상 오픈소스로 직접 구성해서 실제 서비스를 운영하는 구체적인 사례는 생각보다 찾기 어려웠습니다. 제 경험이 부족한 탓도 있겠지만, 혹시 직접 운영해보신 분들이 계시다면 아래 내용들이 궁금합니다.
1. 스택 구성 (API layer, Background Task, Memory 등) 어떤 도구와 프레임워크를 사용하시나요? 저는 파이썬에 관심이 많긴 합니다…
혹시 workflow engine이나 durable execution을 사용해보셨다면 그 경험도 궁금합니다.
2. 배포 방식 어떤 형태로 운영 환경을 구성하셨나요?
3. 옵저버빌리티 & 비용 최적화 모니터링, 트레이싱, 로깅, 메트릭은 어떻게 확보하고 계신가요? 특히 토큰 사용량 추적이나 비용 가시화는 어떤 방식으로 접근하고 계신지도 궁금합니다.
또 운영하면서 어렵게 느끼시는 부분이나 현재 고민 중인 지점이 있으시다면, 함께 이야기 나눠보고 싶습니다.
경험 공유해주시면 정말 큰 도움이 될 것 같습니다. 감사합니다!