Agent Evaluation Grader 만들어봤습니다
Claude Code의 강건성이 Eval harness에서 오는 듯 싶어서 간단하게라도 구성해봤습니다.
에이전트 개발을 팔로업하다보니 Anthropic이 Eval Harness에 공을 많이 들이더라고요.
결정론적인 앱에서 TDD가 하던 역할을 비결정론적인 에이전트에선 이런 Grader들이 한다고 생각합니다.
적용한 방식은 Swiss Cheese 모델이라고 서로 직교하는 Grader들을 다층적으로 쌓아 리스크를 최소화하는 방법론입니다.
Anthropic은 이걸 기반으로 Code-based grader, Model-based grader, Human grader 계층으로 나눠서 LLM의 응답 품질을 평가하는 지표를 구성했고요.
Rubric들은 Opus와 이런저런 레퍼런스들 끌어 모으면서 1-5 스코프로 구성했습니다.
비결정론적인 에이전트를 어떻게 품질 평가할지 고민이 많았는데 Rubric과 Anthropic 방법론으로 출발해서 Opus와 디벨롭하니 구현까지 꽤 금방 나오더라고요.
Scoring 기법은 Claude Code 기반 바이브코딩(요즘엔 또 Karpathy가 에이전틱 코딩이라고 하더라고요)에도 유용해요.
서브 에이전트들을 나누고 스코어링 → 기준 점수까지 피드백 루프를 구성하면 품질이 올라가는 걸 확인하실 수 있을 겁니다.
그만큼 토큰도 녹으니 구독 플랜 아니면 추천하진 않습니다.
영상 속에서 Evaluation 품질을 확인하는 Observability 파이프라인은 OTEL + LangSmith입니다.
Claude Code와 디벨롭하며 생성한 문서는 아래와 같으니 유사한 개발 진행 중이신 분 계시면 참고하셔도 좋을 듯 싶습니다.
(저도 모든 걸 다 이해하진 못했습니다..ㅎㅎ)
주요 레퍼런스
https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
Posts
Service
