이미지 생성 프롬프트, 어떻게 써야 할 까?

AI로 생성하는 이미지가 요새 여러분야에서 쓰이고 있습니다, 전문가의 전유물이 아닌 생활의 영역에까지 침범해 들어오고 있습니다, 호기심에 다들 몇번씩은 해보셨을 겁니다. 프롬프트도 입력해보셨겠죠. 그런데 결과물이 머릿 속에 그려놨던 그림과 전혀 다릅니다. 당장에 필요한 그림이 있는데 나오지 않아 답답합니다. 무엇을 고쳐야 하는지도 모르겠습니다. 이 가이드는 바로 그 지점에서 시작합니다.

이 가이드는 구글의 통칭 ‘Nano Banana’를 사용하는데 있어서 최적화 되어 있습니다, 다만 앞으로 출시하는 어떤 이미지 생성 AI에도 적용되는 프롬프트의 보편적 원리를 다룹니다. 도구는 바뀔 수 있어도 여러분의 머릿속에 원리를 남기려는 목적입니다.

따라서 소위 좋다는 프롬프트들을 한데 모아놓고 "이렇게 하면 좋다" 라고 일방적으로 말하는 것이 아니라 아니라 "왜 이렇게 해야 하는가"를 이해하여 앞으로도 계속해서 응용하실 수 있도록 구성하려 노력 하였습니다.

1. 왜 당신의 프롬프트는 원하는 결과가 안 나오는가

AI가 프롬프트를 이해하는 방식 : LLM의 기본 원리

본격적인 프롬프트 작성법에 들어가기 전에, 한 가지 근본적인 질문부터 짚어보겠습니다. AI는 우리가 쓴 프롬프트를 어떻게 이해할까요?

최신 AI 이미지 모델들은 모두 LLM(Large Language Model, 대규모 언어 모델) 기술을 기반으로 프롬프트를 해석합니다. LLM은 방대한 텍스트와 이미지 데이터를 학습하여 단어와 시각적 개념 사이의 관계를 파악한 모델입니다.

여기서 핵심적인 사실이 하나 있습니다:

LLM은 당신의 의도(intention)를 읽지 못합니다. 오직 당신이 쓴 텍스트(text)만 처리합니다.

"예쁜 여자"라고 입력하면, AI는 "이 사람이 어떤 여성을 원하는지" 추론하지 않습니다. 그저 "pretty" + "woman"이라는 단어 조합과 통계적으로 연관된 시각적 패턴을 출력할 뿐입니다. 여러분의 머릿속 이미지와 AI가 만든 이미지가 다른 이유는 여기에 있습니다.

Google의 공식 프롬프트 가이드에서도 이 점을 명확히 합니다:

"프롬프트는 길거나 복잡할 필요는 없지만, 좋은 프롬프트는 대부분 서술적이고 명확합니다(descriptive and clear)."

프롬프트가 실패하는 3가지 패턴

패턴 1: 정보 부족 - "알아서 해줘"

beautiful woman / 아름다운 여자

이 프롬프트에는 여성의 나이, 인종, 표정, 자세, 의상, 배경, 조명, 카메라 앵글에 대한 정보가 전혀 없습니다. LLM의 관점에서 보면, 이 프롬프트는 결정해야 할 변수가 너무 많은 불완전한 지시문입니다. 이 빈칸들을 학습 데이터의 통계적 평균값으로 채웁니다. 결과는 매번 다르고, 여러분의 머릿속 이미지와 일치할 확률은 극히 낮습니다.

패턴 2: 모순되는 지시 — "따뜻하면서 차가운 느낌으로"

warm cozy atmosphere, cold blue lighting, cinematic noir style, bright and cheerful 따뜻하고 아늑한 분위기, 차가운 푸른 조명, 시네마틱 누아르 스타일, 밝고 활기찬

따뜻한 분위기인데 차가운 조명? 느와르인데 밝고 쾌활? LLM은 모순되는 지시를 받으면 각 키워드의 가중치를 평균화하여 처리합니다. 결과는 어떤 방향으로도 제대로 가지 못한 혼란스러운 이미지가 됩니다.

내가 원하는 것은 시원한 냉커피인데 뜨거운 커피에 찬물을 부어서 내놓으면 그건 절대로 시원한 냉커피가 될 수 없습니다. 내가 원하는 바를 정확하게 전달해야 합니다.