[codex 5.3출시] 형태소 분석기 seunjeon을 ts로 번역해봤습니다.
scala로 구현된 한국어 형태소 분석기가 있습니다(seunjeon)
아시는 분들 많으실 겁니다.
codex 5.3이 나왔길래 겸사겸사 typescript 기반으로 번역하는 작업을 해봤습니다.
약 6시간 정도 걸렸고, scala 구현체를 typescript 로 번역한 후 형태소 분석까지 제대로 되더군요.

위가 원본 scala 구현체 돌렸을 때이고,
아래가 typescript로 번역한 구현체 돌린 결과입니다.

양쪽 모두 태그 및 가중치 값이 동일합니다.
왜 이런 짓을 했냐면…
프롬프팅 스킬 가다듬기
브라우저에다 형태소 분석기를 심어야할 상황 발생.
올해는 맞춤법 검사기를 만들어볼 계획인데 서버 없이 브라우저에서 돌아가는 구현이 필요해서 어찌어찌 구현체를 번역했습니다.(오프라인에서 돌아가야함. 한글 프로그램처럼)
물론 seunjeon은 형태소만 분석하고 맞춤법 검사는 해주지 않습니다. 근데 가능한 지점을 찾은 것 같습니다.
실행에 필요한 사전 데이터는 indexedDB에 넣어두고 사용하는 구조입니다.
그렇다고 이게 뚝딱 되지는 않습니다.
엄연히 언어가 다르고 지원하는 문법이 서로 다르기 때문에 AGENTS.md 안에다 번역 가이드를 심어줘야 합니다.
특히 scala 구현체는 사전 데이터를 자바 직렬화 기술로 저장하고 로드하는데, 이 부분을 커스텀 직렬화로 바꿔서 번역해야 합니다.
옛날 같으면 3달 정도 짬짬이 붙들고 일일이 코딩했을텐데 세상이 좋아져서 반나절만에 병목 지점을 해결해버리네요.