바이브 코딩 모델 벤치마크(Gemini / Claude Code/ ZLM 4.7 / Solar3)

한국 오픈소스기반 코딩에이전트 캐러티에서 국내 개발자들이 선호하고 캐러티에서 중점 지원하는 Gemini, Claude Code, Zlm, 그리고 독파모의 Upstage 까지 실질적인 모델 비교를 해봤습니다. 한번에 문제를 푸는 방식이 아닌 에러를 다시 제공하여 문제를 풀게하여 조금 더 에이전트의 성능에 가까운 벤치마크로 만들었습니다. 흥미로운 결과와 테스트 한계도 확인했습니다.

1. (흥미로운 결과) 최신 모델이 항상 좋은건 아니다.

구글의 Gemini와 upstage의 Sloar 모두 같은 결과를 나타냈습니다. 모델 최적화에 도움이 되시라고 벤치마킹 raw 데이터도 함께 공개했으니 활용해주시면 감사하겠습니다.

2 (한계) Hard suite조차 변별력이 떨어진다는 겁니다.

이미 최상위 모델은 보통 개발자 수준을 훨씬 넘었으며, 이제 경쟁은 단순 알고리즘 푸는 능력이 아니란걸 의미합니다. 이 부분을 더 고민해야 하는게 캐러티의 숙제 입니다. 이에 대한 기반을 마련하기 위해 다음 벤치마킹도 준비중입니다.

3. (한국AI 파이팅!) 마지막으로 이런 자료를 계속 제공 예정이니 국내 독파모 모델의 개선과 발전도 기대합니다. 저희는 데이터와 실험으로 기여해드리겠습니다. 많은 관심 부탁드립니다.

https://careti.ai/ko/benchmark/2026-02-hard-suite

#독파모 #AI #인공지능 #바이브코딩 #에이전트

AI 목록