AI·약 2개월·371

데모는 완벽했다, 프로덕션에 올리자 결과 0건 — 에이전트 운영의 보이지 않는 벽 4가지

RAG와 에이전트를 운영 환경에 배포한 뒤 겪은 "PoC에서는 안 보이는 벽들" 사례를 정리한 글입니다. 공통점: 로컬·스테이징 통과 → 프로덕션에서만 터짐.

사례 1: 3-depth 체인의 타임아웃 침묵

- 금융 계열사 A그룹, 멀티에이전트 워크플로우 구축

- 로컬/스테이징 정상 → 프로덕션 결과 0건

- 원인 1: 프로덕션 환경의 내부 통신 경로 설정 누락 (중간 서브에이전트 툴 리스트에 하위 에이전트 미등록)

- 원인 2: 기본 타임아웃이 체인 깊이를 고려하지 못함

- 로컬 2초짜리 체인이 프로덕션에서 기본 타임아웃 초과:

- 네트워크 레이턴시 곱셈 효과 (루프백 0ms → 컨테이너 간 통신)

- 컨테이너 워밍업 오버헤드

- 토큰 처리의 환경별 차이 (GPU 리소스 할당)

사례 2: 재실행을 예외가 아닌 설계로

- 금융사 H, 에이전트가 간헐적으로 중간에 멈춤

- 전통 소프트웨어 관점: "간헐적 작동 안 함 = 버그 = 고쳐야"

- LLM 에이전트 관점: 비결정성이 내재. 온도 0에서도 완벽한 일관성 보장 불가 (NAACL 2025)

- 해법 3가지:

- 단계 간 체크포인트 저장 (외부 스토리지)

- 단계별 완료 검증 프롬프트 (자기 보고 불신)

- 재실행을 운영 정책으로 명문화 ("체크포인트 이후부터 재실행")

- retry가 네트워크 오류에만 쓰는 게 아니라 정상 운영 흐름의 일부가 됨

사례 3: MCP "연결됐다"와 "작동한다"는 다르다

- 제조사 E, 자체 데이터 파이프라인을 MCP 서버로 래핑

- 연결 성공 → 호출 시 Response is not a valid tool result

- 원인: MCP Integration Node가 기대하는 output schema와 내부 서버 응답 형식 불일치

- 근본 문제: MCP 스펙 자체의 output schema가 느슨함 (Zuplo 지적)

- 도구 10개+ 연결 시 I/O 포맷·파일 경로·인코딩·에러 구조 정합 이슈 급증

- 도구 연결에 이틀, 도구들이 대화하게 만드는 데 두 달

사례 4: 에이전트 앞에 Inbox

- IT서비스사 I, PMO 자동화 에이전트

- 자율 액션 3종(알림 발송, 슬리피지 상위 보고, 액션 제안) 모두 오판 발생

- "에이전트가 틀렸다"기보다 "조직 맥락을 알 수 없었다"

- Agent Inbox 설계:

- 불가역 액션만 사람 승인 대상 (데이터 수집·분석은 자율)

- 비동기 승인 + 타임아웃 시 재평가 (LangGraph HITL)

- 거절 이유 입력 → 에이전트 학습

- 긴급 케이스는 짧은 타임아웃 후 자동 실행

운영 성숙도 4단계:

1. 연결 — API·MCP 응답 확인. PoC 통과 기준

2. 정합 — I/O 포맷 통일, 타임아웃 조정. 프로덕션 진입 조건

3. 신뢰 — 재시도·부분 결과·비결정성 수용. 실제 운영 단계

4. 자율 — HITL·승인 워크플로우. 조직 리스크 허용도가 결정

2단계에서 4단계 아키텍처 선택하면 복잡도만 높아집니다.