데모는 완벽했다, 프로덕션에 올리자 결과 0건 — 에이전트 운영의 보이지 않는 벽 4가지
RAG와 에이전트를 운영 환경에 배포한 뒤 겪은 "PoC에서는 안 보이는 벽들" 사례를 정리한 글입니다. 공통점: 로컬·스테이징 통과 → 프로덕션에서만 터짐.

사례 1: 3-depth 체인의 타임아웃 침묵
- 금융 계열사 A그룹, 멀티에이전트 워크플로우 구축
- 로컬/스테이징 정상 → 프로덕션 결과 0건
- 원인 1: 프로덕션 환경의 내부 통신 경로 설정 누락 (중간 서브에이전트 툴 리스트에 하위 에이전트 미등록)
- 원인 2: 기본 타임아웃이 체인 깊이를 고려하지 못함
- 로컬 2초짜리 체인이 프로덕션에서 기본 타임아웃 초과:
- 네트워크 레이턴시 곱셈 효과 (루프백 0ms → 컨테이너 간 통신)
- 컨테이너 워밍업 오버헤드
- 토큰 처리의 환경별 차이 (GPU 리소스 할당)
사례 2: 재실행을 예외가 아닌 설계로
- 금융사 H, 에이전트가 간헐적으로 중간에 멈춤
- 전통 소프트웨어 관점: "간헐적 작동 안 함 = 버그 = 고쳐야"
- LLM 에이전트 관점: 비결정성이 내재. 온도 0에서도 완벽한 일관성 보장 불가 (NAACL 2025)
- 해법 3가지:
- 단계 간 체크포인트 저장 (외부 스토리지)
- 단계별 완료 검증 프롬프트 (자기 보고 불신)
- 재실행을 운영 정책으로 명문화 ("체크포인트 이후부터 재실행")
- retry가 네트워크 오류에만 쓰는 게 아니라 정상 운영 흐름의 일부가 됨
사례 3: MCP "연결됐다"와 "작동한다"는 다르다
- 제조사 E, 자체 데이터 파이프라인을 MCP 서버로 래핑
- 연결 성공 → 호출 시 Response is not a valid tool result
- 원인: MCP Integration Node가 기대하는 output schema와 내부 서버 응답 형식 불일치
- 근본 문제: MCP 스펙 자체의 output schema가 느슨함 (Zuplo 지적)
- 도구 10개+ 연결 시 I/O 포맷·파일 경로·인코딩·에러 구조 정합 이슈 급증
- 도구 연결에 이틀, 도구들이 대화하게 만드는 데 두 달
사례 4: 에이전트 앞에 Inbox
- IT서비스사 I, PMO 자동화 에이전트
- 자율 액션 3종(알림 발송, 슬리피지 상위 보고, 액션 제안) 모두 오판 발생
- "에이전트가 틀렸다"기보다 "조직 맥락을 알 수 없었다"
- Agent Inbox 설계:
- 불가역 액션만 사람 승인 대상 (데이터 수집·분석은 자율)
- 비동기 승인 + 타임아웃 시 재평가 (LangGraph HITL)
- 거절 이유 입력 → 에이전트 학습
- 긴급 케이스는 짧은 타임아웃 후 자동 실행
운영 성숙도 4단계:
1. 연결 — API·MCP 응답 확인. PoC 통과 기준
2. 정합 — I/O 포맷 통일, 타임아웃 조정. 프로덕션 진입 조건
3. 신뢰 — 재시도·부분 결과·비결정성 수용. 실제 운영 단계
4. 자율 — HITL·승인 워크플로우. 조직 리스크 허용도가 결정
2단계에서 4단계 아키텍처 선택하면 복잡도만 높아집니다.
