GitHub 레포지토리 자동화 RAG 파이프라인 시스템 오픈소스 공개합니다
안녕하세요 2인 개발 스터디를 진행하고 있는 Gyu-Chul 팀입니다.
RAG 기술을 활용하여 GitHub 레포지토리를 쉽게 관리하고 코드를 검색하여 사용할 수 있는 오픈소스의 첫번째 배포판이 나왔습니다.
대규모 코드베이스 분석할 때 필요한 코드를 일일이 찾아서 복붙하고, 버전 바뀔 때마다 다시 하고, 어느 시점 코드인지 헷갈리는 문제들 있잖아요.
RAGIT은 이런 수동 작업을 아예 없애고, GitHub 레포지토리 전체를 자동으로 관리하는 RAG 파이프라인 시스템입니다.
레포 업로드하면 수집부터 전처리, 임베딩, 벡터 인덱싱, 증분 동기화까지 전부 자동으로 돌아가고, 커밋 단위로 시점을 고정해서 버전 혼선 없이 정확한 컨텍스트를 유지합니다.
질문하면 하이브리드 검색으로 관련 코드를 찾아서 근거와 함께 요약·인용해주고, 복잡한 질문이나 여러 파일에 걸친 내용도 맥락 끊김 없이 일관된 답변을 제공합니다.
LLM 직접 쓰는 것보다 훨씬 재현 가능하고 품질 높은 응답을 받을 수 있고, 레포 변경사항도 자동으로 동기화되니 유지보수 비용이 대폭 줄어듭니다.
마이크로서비스 아키텍처로 구축했고, Gateway-Backend-Worker 패턴에 PostgreSQL, Redis, Milvus 인프라가 다 포함되어 있습니다.
도커 컴포즈 한 방으로 전체 시스템 띄울 수 있습니다. Apache 2.0 라이선스입니다.
벡터 임베딩 시에 다소 시간이 걸릴 수 있으나 사용해보시고 피드백 주시면 정말 감사하겠습니다.