가소성 파라미터로 ai 구현하기
인기 있는 주제는 아니지만 예전부터 종종 이런 방향을 이야기하는 분들이 있었던 것 같습니다.
128k, 256k처럼 컨텍스트 길이가 계속 증가하고 있지만, 입력 길이 제한 자체는 LLM의 근본적인 한계일 듯 합니다.
어떤 작업은 24시간 이상 수행하더라도 컨텍스트 잔여량이 남을 수 있죠.
그런데 모델 성능과 하드웨어가 개선되면 결국 컨텍스트 잔여량 소진은 피하기가 어려워 보입니다.
동시에 KV 캐시관리 문제도 계속 증가하겠죠.
유력하게 보는 모델은 가소성(Plasticity) 파라미터를 이용한 접근입니다.
아직 구체적인 구조를 구현해본 것은 아니지만, 만약 가능하다면:
컨텍스트 잔여량 의존성 감소
지속적인 상호작용 보장
컨텍스트 정리 비용 절감
불완전한 입력에서도 연속적인 학습 및 추론
같은 장점을 기대할 수 있을 것 같습니다.
앱 개발은 덜하고 거의 대부분 ai모델 생각만 하게되네요.
예전에 보았던 1bit 가중치로 논리 게이트를 구하는 모델은 각각에 기호마다 레이어가 분리되어 있으므로 실험적인 것 정도입니다.
모든 논리 게이트에 출력을 낼 수 있는 구조를 만든다면 입력 필드의 확장이 필요합니다.
x ^ y 처럼 x나 y에 입력 값이 0 또는 1 이면 1비트로 무난하겠지만 19 종류의 기호를 입력으로 넣을 수 있으려면 5비트가 필요하므로 입력 값을 대략 3bit 쌍으로 구현해야 할 듯 요.
llm 모델들은 x ^ y 수식을 한번에 제공하지만 지금 방식은 풀어쓰면 ^ 계산 할 거야, x y는? 두 번 나눠서 입력 정도겠네요.
실시간으로 학습하는 방법은 아직 모르겠지만 이미 학습한 레이어들로 모든 논리 게이트 분기하기 정도는 구현이 가능 할지도 모르겠네요.
