금의야행(錦衣夜行)이라는 사자성어가 있다. 비단옷을 입고서 밤에 나다닌다는 뜻으로, 일견 화려하고 휘황찬란해 보이지만 정작 보는 사람이 없으니 소용이 없다는 뜻. 뭔가 어리석은 사람을 나무라는 식으로, 다소 부정적인 뉘앙스를 풍기고 있지만 만약 그 밤길에 사람이 있다면? 혹시 야시장처럼 사람이 엄청 많은 공간에, 밤이지만 대낮처럼 환한 조명이 비춰지고 있다면? 그럴 때에도 ‘밤에는 비단옷을 입을 필요가 없다’고 할 것인가?
사람들은 가끔, 어떤 특정한 도구를 그 도구가 가진 본래의 용도에 비하면 참으로 시시한(?) 분야에 사용하는데 또 그런 점이 상상력을 자극해서 종종 누구도 생각하지 못했던 결과를 가져오기도 한다. 현지 시간으로 지난 8월26일 구글이 공식적으로 발표한 이미지 편집 모델 ‘나노 바나나’(공식 명칭은 Gemini 2.5 Flash Image)를 두고 하는 이야기다.
한동안 전세계에서 그야말로 선풍적인 인기를 모았던, 이른바 ‘지브리 스타일 이미지 만들기’를 아직 많은 사람들이 기억할 것이다(그리고 수많은 중년의 아재와 아짐들이 본인들의 SNS ‘프사’를 이 이미지로 바꿔놓기도 했다. ^^;;). 구글의 나노 바나나는 오픈AI의 챗GPT(의 이미지 변환 기능)하고 비교하면 구조적으로 크게 다른 점이 있는데, 그것은 바로 ‘이미지(오브젝트)를 인식하는 방식’이다.

챗GPT의 경우 단순히 픽셀 단위로 이미지를 인식한다(물론 이것도 대단한 것이긴 하지만). 입체 공간에 대한 고려가 전혀 없는 것은 아니지만 적어도 그 부분에 있어선 아직까지 2D 구현에서 보여준 것만큼 흡족한 수준은 아니다. 다른 스타일도 아니고, ‘2D 애니메이션에선 정점을 찍은’ 지브리 스튜디오의 스타일을 구현해내는 일에 그렇게 많은 이들이 열광했던 건 타당한 이유가 있었던 것.
나노 바나나의 경우 보여진 이미지를 통해서 입체, 즉 3D 공간과 오브젝트의 상호작용을 ‘추론’하고 있다는 점이 그야말로 독보적인 지점이라고 하겠다. 그래서 나노 바나나를 통해 만들어진 이미지는 유독 3D 피규어의 (실사를 방불케 하는)이미지가 그렇게도 많았던 것. 덧붙여서 2D 일러스트 작업을 해본 적이 있는 사람이라면 알겠지만, 어떤 식으로든 ‘그려진’ 캐릭터가 포즈를 바꾼다든지, 아니면 아예 특정한 액션을 취하게 한다든지 하는 작업이 모두 가능하다!
당연하지만, 나노 바나나가 이와 같은 작업을 진행하는 일이 가능한 이유는 방대한 데이터를 통해 학습한 ‘인공지능’을 바탕으로 했기 때문이다. 전세계의 이용자들이 자발적으로(?) 제공하는 데이터의 양만 놓고 봤을 때 구글만한 기업이 세상에 또 없긴 하니, 그런 점에서 나노 바나나가 앞으로 얼마나 더 발전할지는 그 누구도 예측할 수가 없을 것이다. 아예 관련 업계에선 나노 바나나의 활약(?)을 두고 “포토샵은 이제 끝났다”고까지 하고 있을 정도.
IT 업계에서 통용되는 ‘SaaS’란 말이 있다. Software as a Service, 즉 ‘특정한 어떤 서비스를 하는 소프트웨어’란 뜻. 그런데 이 말이 앞으로는 조금 달라질 수 있겠다. 어쩌면 반대의 개념으로 Service as a Software, 즉 ‘소프트웨어가 하는 특정한 어떤 액션을 가능케 하는 서비스’란 식. 어쩌면 인간은 점점 더 게을러지고(?), 기계는 점점 더 똑똑해지는(!) 날이 (생각보다 금방)올지도.