[올거나이즈 필드 리포트 EP.03] GPU 2장이면 충분하다고 했다

온프레미스에서 LLM을 서빙하며 겪은 GPU 최적화 사례 3가지를 정리한 글입니다.

- vLLM deepgemm 커널 이슈 — VLLM_USE_DEEP_GEMM=0 환경변수 한 줄로 30B 80→150 tok/s, 80B 40→130 tok/s 개선. RTX 6000이 H200보다 빠르게 나왔던 이유가 여기에 있었습니다

- H100 2장(160GB)에 122B FP8 양자화해도 KV 캐시 오버헤드로 실질 서빙 불가. GPU 증설 견적 약 1.1억~2.3억원

- Dense 120B(동시처리 1~3건, P99 333초) → MoE 35B-A3B(동시처리 25~50건, P99 81초). 같은 GPU, 모델 아키텍처만 변경

벤치마크는 "혼자 쓸 때" 성적이고, 현장의 질문은 "25명이 동시에 쓸 때 첫 응답이 10초 안에 나와?"입니다. GPU를 더 사기 전에 소프트웨어 레이어를 먼저 확인해야 합니다.

전문: https://www.allganize.ai/ko/blog-posts-ko/gpu-two-cards-llm-infrastructure-field-report?utm_source=okky&utm_medium=community&utm_campaign=field-report&utm_content=ep03-main

AI 목록