젬마 4 12B QAT (8GB vram)
ggml-org/gemma-4-E4B-it-GGUF · Hugging Face
google/gemma-4-12B-it-qat-q4_0-gguf · Hugging Face
12일 전에 4비트 양자화 모델을 출시해서 파라미터가 많아진 버전을 사용할 수 있습니다.
VRAM은 8기가 중 6.6 ~ 7.3GB로 E4B 모델이랑 거의 비슷하기 나오네요.
vulkan이 7.3GB, cuda 6.6GB 약간의 메모리 오버헤드가 있는 듯 싶네요.
누군가는 젬마 E4B 모델이 AMD 5700G iGPU에서 무난하게 작동한다고 하였지만 초당 10토큰 정도라서 어시스트 용도로는 힘들 것 같습니다.
신기한 부분은 vulkan 버전이 초당 2토큰 더 빠릅니다.
gpu가 rtx 3050 8GB 모델이라서 많이 빈약합니다.
rtx 5060 16GB 모델은 지금 8~90만원 정도 하는데 65만원에서 올랐죠. 현금 63만원 무료배송 하나가 보이는데 최대 TOPS 759(FP4) 이 가격으로 반은 이미 마음이 넘어갔네요.
3팬 거대한 gpu라서 케이스도 바꿔야 하는데 케이스 앞 부분을 뿌셔서 임시로 쓸 수도 있을 것 같습니다.
다나와 가격비교는 최저 가격이 보일 때 안 사면 금방 없어져서 은근히 깊은 고민을 하게 되네요.
장점 - 3050, 5070 구성으로 E4B, 12B 동시 구동
단점 - 혜자이긴 한데 그래도 비싸다
정도네요.
