AI 보안, 체크리스트만으로는 안 된다 — PII 마스킹의 진짜 비용

온프레미스에서 AI 에이전트를 운영하면서 PII 마스킹을 실제로 구현한 경험을 정리한 글입니다.
- 정규식(수 마이크로초) vs BERT 분류기(10~50ms) vs LLM 가드레일(수백ms~수초) — 방식에 따라 커버리지와 지연이 완전히 갈립니다
- H100 GPU 2장으로 120B 모델 + PII 마스킹을 동시에 돌리려다 동시 처리 반 토막. vLLM --max-num-seqs, 큐 concurrency 제한, 시간대 분리로 대응한 과정
- 보안 패치 한 번에 K8s 클러스터 전체 장애, 보안솔루션이 SSH를 차단해서 LLM 서버 접속 불가 등 체크리스트에 없는 현장 이슈
보안 수준 x GPU 비용 x 응답 속도의 트레이드오프를 비교표로 정리했습니다. 특히 GPU 리소스가 제한된 온프레미스 환경에서 PII 마스킹 아키텍처를 어떻게 선택했는지가 핵심입니다.
전문: https://allganize.ai/ko/blog-posts-ko/ai-security-beyond-checklist-field-report?utm_source=okky&utm_medium=community&utm_campaign=field-report&utm_content=ep02-main