시각 정보를 해석하는 요건이 머나요
시각 정보를 해석하는 신경망에 구현을 생각하지 않았쩌.
이런 거는 디퓨전 모델이랑 다른거여서 다시 다루어볼 여지가 있어요.
형태를 인식하고 양자화이던 벡터이던 정보로 저장하는 부분이 핵심이 되는 거여요.
가장 단순한 처리 방식은 명암으로 판단하는 거로 실제로 너무 밝고 화려한 선분이 많은 이미지를 보게되어 어질어질한 여지가 많았어요. fast and the furious keep on moving 노래를 다시 창작한 nightcore rock my body 노래에서 사용한 유튜브 섬네일 이미지는 인식하기 어려운 여지가 많았어요.

또다른 주제는 소리에 인식이 있쩌.
