AI로 중무장한 크롤러 만들어보니 좋네요
평소에 상상도 못했던 작업들이 실현되니 신기합니다.
원래 크롤러라는 도구는 아무리 잘 만들어도 유지보수 이슈를 피해갈 수 없는 아주 귀찮은 작업인데.
그 유지보수를 AI가 대신 해주는게 마법 같습니다 ㅋㅋ
어떤 사이트의 원하는 크롤링이 실패할 경우, 직접 구현한 LLM 에이전트가 사이트에 접속하여 원인을 분석하고 크롤링 경로를 처음부터 재설계 합니다.
재설계 과정은 JSON으로 저장하여 추상화된 크롤러 단일 클래스를 호출하도록 했고요. 사람이 직접 수정할 수도 있습니다.
LLM은 GPT 5 mini를 사용했는데, 사이트 몇개 돌려보니 한달 써봐야 토큰 만원도 안나갈 정도로 저렴하더라고요.
근데 캡챠는 어떻게 해결하는지 도저히 모르겠네요. 시중에 AI로 캡챠 풀어주는 전문 서비스들이 많던데, 일반적인 상용AI로는 불가능한것 같고.
앞으로 딥러닝 기술이나 트랜스포머 모델 같은 것들을 많이 공부해 봐야 할 것 같습니다.