AI·29일·451·수정됨

1개월 동안 같은 프로젝트를 7번 리빌드한 1인 개발자의 LLM 통제 6단계 프레임워크

안녕하세요. 클로드 코드·커서·윈드서프를 매일 쓰는 1인 개발자입니다.

작년 한 달 동안 같은 프로젝트를 7번 리빌드 했습니다. 이 글은 그 7번의 실패에서 정리한 회고입니다. 광고 글이 아니라 비슷한 자리에 서 있는 1인 개발자에게 시간을 돌려주고 싶어서 적습니다.

부딪힌 3개의 벽

1. 거짓 보고 - LLM 이 검증 없이 "완료", "전부 마무리" 라고 단정합니다. 확인해 보면 한 줄 수정이 누락되어 있거나, 결과 파일이 엉뚱한 폴더에 가있거나, 추측이 사실로 보고되어 있습니다.

2. 장시간 세션 환각 - 자동 압축 직전이 가장 위험합니다. 20턴 전 결정을 뒤집고, 삭제한 파일을 여전히 언급하고, 같은 시도를 미세하게 표류시킵니다.

3. 일관성 부재 - 같은 작업을 3번 시키면 3가지 결과가 나옵니다. 100만 줄 코드베이스는 어떤 컨텍스트 윈도우에도 들어가지 않습니다.

시도하고 실패한 접근

- 더 비싼 모델로 교체 : 거짓 보고는 약간 줄었지만 본질은 같음

- 더 긴 시스템 프롬프트 작성 : 프롬프트가 길어질수록 LLM 이 프롬프트 자체를 무시

- 매 응답마다 "확인해줘" 요청 : "확인했다" 거짓 보고만 늘어남

- 작업 단위 잘게 쪼개기 : 인수인계 비용이 폭발

7번째 리빌드를 마치고 깨달았습니다. LLM 의 성능 문제가 아니라 통제 부재 문제였습니다.

정제된 6단계 통제 프레임워크

1. 단일 정답지 : 진행사항·결정사항·핵심 사실을 1개 파일로. LLM 이 매 응답 직전 참조 강제. 가설 표기 의무

2. 서브 에이전트 분배 : 17명 서브 에이전트 (4개 팀). 호출 시 4요소 (목표·출력·도구·경계) 누락 시 차단

3. 자동 차단 후크 : 거짓 보고 패턴, 데이터베이스 쓰기 명령 (INSERT, UPDATE, DELETE) 자동 차단

4. 스킬화 : 채팅방 시작·종료 절차 자동화. "스킬_시작 발동" 한 마디로 동일 컨텍스트 로드

5. RAG: 전체 임베딩 + 30일 롤링 임베딩 2종. 단일 정답지 미스 시 의미 기반 검색

6. 자기 점검 후크 : 매 응답 송출 직전 7개 항목 통과 검증. 환각 의심 신호 7종 자동 검출

Before vs After (1인 환경, 미검증)

- 주당 작업 시간 약 40시간 → 약 8시간 (80퍼센트 감소)

- 결과물 정확도 약 40퍼센트 → 약 95퍼센트 (약 2.5배)

- 주당 환각 발생 약 18회 → 약 2회 (89퍼센트 감소)

- 주당 거짓 보고 약 13회 → 0~1회 (약 95퍼센트 감소)

- 인수인계 손실 재작업 주당 약 5건 → 0건 (100퍼센트 차단)

가장 놀란 것은 환각 감소율이 아니라 인수인계 손실 0건이었습니다. 채팅방을 교체해도 직전 작업이 그대로 이어졌고, 1주일 5건씩 발생하던 재작업이 사라졌습니다.

결론

LLM 의 성능이 아니라 통제 구조가 결과를 결정합니다. 같은 모델·같은 도구를 쓰면서도 통제 구조가 있으면 80퍼센트 시간을 회수할 수 있었습니다.

더 자세한 회고와 6단계 절차의 구체적인 구현 코드·후크·스킬·RAG 스크립트 구성은 벨로그에 정리해 두었습니다.

비슷한 경험이나 다른 접근 있으시면 댓글로 환영합니다.