노트북GPU로 추론하기 + AI의 정리와 요약 능력

제 개발 노트북은 11th-intel i5 cpu 이고 ram 40gb 입니다 gpu는 내장 intel iris xe 입니다

이걸로 로컬 AI음악생성을 할 수 있을까요? 되네요

GPU데스크탑은 따로 있지만 디지털노마드를 지향하기 때문에 노트북으로 도전해 봅니다

musicgen 같은건 안됩니다 이건 무조건 nvidia GPU가 필요하고요

stable diffusion의 riffusion을 사용합니다

원래 음원을 5초단위로 512×512 px 단위의 파형 image로 만들어서

프롬프트(lofi hip hop beat, chill, atmospheric, instrumental 뭐 이런거)로 프라이밍 해주면

rifussion이 image로서 새로운 음악을 만들어 줍니다

저는 공장형 ASMR 유튜버에 도전하기 위해서 프로그램을 개발중인데요

기존의 저작권있는 노래mp3를 넣으면 드럼 베이스 파형만 추출해서 image로 만들어서

저작권이없는 riffusion으로 새로운 음악으로 만드는겁니다

새로운 음악이 나오면 여기에 각종 편집 이펙트 처리하고

그 음악에 맞춘 boids simulation을 추가해서 음악에 따라 올챙이들의 춤 추는 동영상을 추가해서

최종 mp4로 만드는 겁니다

프론트엔드 tauri/js

백엔드 rust/symphonia/rustfft

음향동영상 ffmpeg

AI추론 python/pytorch/openvino/riffusion

이거 하나 생성 하는데 15분 정도 걸리네요

추론(생성)중에는 CPU는 idle 수준인데 GPU는 100% 가동률이고 GPU 메모리는 6.0/19.9GB (shared memory) 사용되네요

배치를 더 늘여봤는데 rust 단에서의 구조상 문제인지 아니면 AI 추론 단의 문제인지는 모르겠는데 오류가 나네요

노트북컴퓨터에서 CPU는 idle이고 GPU가 메모리를 상당량 먹고 가동률 100%인 경우가 또 있을까요?

openvino가 내장GPU로도 추론을 가능하게는 하는데 그야말로 모바일(노트북 이하)용입니다 되긴 되는데 느립니다

테스트로 만든건데 망했네요. 아마도 원본을 5초단위로 잘라서 image로 만들고 pytorch한테 넘겨주는 부분의 로직이 잘못된 것 같네요. 나중에 좀 더 다듬어 봐야겠습니다

LLM의 근본적인 특성이 문맥의 정리와 요약이다보니 사람들이 점점 산만한 구도에 짜증을 낼 수도 있습니다

예를 들어 근 20년간 소설과 영화가 망하고 빌드업이 없는 웹소설과 OTT 드라마가 흥한 것을 보면 LLM이 앞으로 인간들의 정보처리 향방을 유추해 볼 수 있을텐데요

그런 세상이 오면 저같은 ADHD-소시오패스-자폐스팩트럼 같은 주의산만한 인간들이 유리해 질겁니다

왜냐하면 AI 어시스트 사회에서 점점 아무도 관심 가지지 않는 정보 영역을 홀로 인지할테니까요