AI 이미지 생성, 프롬프트가 화가의 붓이다

Mar 21, 2026
AI 이미지 생성, 프롬프트가 화가의 붓이다

같은 AI 모델에 "고양이 사진"을 넣으면 어떤 결과가 나올까요. 매번 다른 고양이가 나옵니다. 품종도, 배경도, 조명도, 포즈도 제각각입니다. AI가 "나머지"를 알아서 채우기 때문입니다.

그런데 만약 "흰 눈이 녹는 산지 바위 위에 서 있는 눈표범, 한 발을 들어 우리 쪽으로 걷는 모습, 땅에는 보라색과 노란색 꽃이 돋아나고, 하늘에는 해무리, 뒤로 날카로운 암벽이 솟아 있으며, 빛이 바위 능선을 타고 흐른다. 눈표범의 눈은 빛나는 파란색. 직접 눈맞춤."이라고 입력하면 어떻게 될까요.

결과는 전혀 다릅니다. 프롬프트에 적힌 장면이 실제로 구현됩니다.

AI 이미지 생성에서 프롬프트는 단순한 검색어가 아닙니다. 화가가 캔버스에 앉기 전에 그리는 설계도입니다.


AI는 어떻게 이미지를 만드는가

먼저 모델이 작동하는 방식을 간단히 이해해야 합니다.

Stable Diffusion으로 대표되는 초기 확산 모델(diffusion model)은 이미지를 잠재 공간(latent space)이라 불리는 압축된 수치 표현으로 인코딩합니다. 수십만 픽셀의 이미지가 수백 개의 숫자로 압축되는 것입니다. 텍스트 프롬프트도 마찬가지입니다. CLIP이라는 인코더가 텍스트를 같은 공간의 숫자 벡터로 변환합니다.

이미지 생성은 반대 방향으로 진행됩니다. 완전히 무작위한 노이즈에서 출발해, 프롬프트의 수치 벡터에 가까워지도록 단계적으로 노이즈를 제거합니다. 이 과정에서 AI는 "이 프롬프트라면 이 픽셀은 이 값이어야 한다"고 반복적으로 수정합니다.

여기서 핵심이 드러납니다. 프롬프트에 명시되지 않은 영역은 모델이 학습 데이터를 기반으로 확률적으로 채웁니다. 즉, 지정하지 않은 것은 AI가 임의로 결정합니다.

최신 모델은 더 정교하게 이해한다

Flux, Imagen 3, Kling과 같은 최신 모델들은 한 단계 더 나아갑니다. 텍스트와 이미지를 별도로 처리하는 대신, 두 정보를 하나의 시퀀스로 통합해 처리하는 Transformer 구조를 활용합니다.

결과적으로 이 모델들은 단순히 "눈표범"이라는 개념과 이미지를 연결하는 것을 넘어, 공간적 관계("A가 B 앞에 있다"), 속성과 대상의 결합("파란 눈의 눈표범"과 "하얀 눈"), 조명의 방향과 질감까지 훨씬 더 정확하게 반영합니다.

모델이 정교해질수록, 상세한 프롬프트가 가져오는 통제력의 폭도 넓어집니다.


프롬프트 = 화가의 캔버스 설계

숙련된 화가는 붓을 들기 전에 이미 그림을 머릿속에 완성합니다. 주제는 어디에, 배경은 어떤 톤으로, 빛은 어느 방향에서, 시선은 어디를 향하는지. 이 설계가 구체적일수록 의도한 결과물에 가까워집니다.

AI 이미지 생성에서 프롬프트가 바로 그 설계입니다. 캔버스의 각 영역을 누가 채울지 지정하는 일입니다. 지정하지 않은 영역은 AI가 채웁니다. 그 결과가 마음에 들 수도 있고, 전혀 다를 수도 있습니다.

상세한 프롬프트는 불확실성을 줄입니다. 원하는 이미지를 얻기 위해 수십 번 재생성하는 대신, 처음부터 원하는 방향을 명확히 지정할 수 있습니다.


실전 예시 1: 눈표범 — 장면 서술형 프롬프트

AI 프롬프트 갤러리 LocalBanana에 @NanoBanana가 올린 눈표범 이미지와 프롬프트입니다.

눈표범 상세 프롬프트 예시 — LocalBanana

단순 프롬프트와의 차이를 비교해보겠습니다.

단순 프롬프트:
"A snow leopard in the mountains."

상세 프롬프트:
"A full body portrait photo of a snow leopard. It has one paw raised as it is walking towards us. The snow on the ground is melting, and small purple and yellow flowers are showing with some grass. In the sky there is a sun dog. Behind, a sharp rock protrudes high into the sky. The warm light is catching the rock edge. The snow leopard's eyes are a radiant blue. Direct eye contact."

이 프롬프트가 설계하는 요소들을 분해해보면:

  • 피사체 행동: 한 발을 들고, 우리 쪽으로 걷는 중
  • 땅: 녹는 눈, 보라색·노란색 꽃, 풀
  • 하늘: 해무리(sun dog)
  • 배경: 날카로운 암벽이 높이 솟음
  • 빛: 따뜻한 빛이 바위 능선을 타고 흐름
  • 눈: 빛나는 파란색
  • 시선: 카메라와 직접 눈맞춤

결과 이미지를 보면 이 요소들이 모두 구현되어 있습니다. 해무리, 보라색 꽃, 파란 눈, 들어올린 발까지. 단순 프롬프트였다면 AI가 임의로 채웠을 영역들입니다.


실전 예시 2: 딸기 계단 패션 — 구조화 프롬프트

같은 갤러리의 @Strength04_X가 올린 패션 인물 사진입니다. 이 프롬프트는 더 나아가 항목별로 구조화되어 있습니다.

딸기 테마 계단 패션 인물 — 상세 구조화 프롬프트 예시
"quality": "ultra_photorealistic, raw style, 8k"
"camera": "iPhone 15 Pro Max"
"lighting": "bright natural daylight filtering in through the arched window, creating a warm glow"
"style": "cinematic low-angle portrait, environmental fashion focus"

Scene: 딸기 패턴 커튼이 달린 분홍색 아치형 현관, 분홍 카펫 계단,
       크리스탈 샹들리에, 딸기 무늬 바닥 매트...

Subject: 파란 눈, 하얀 금발 머리를 높은 번으로 올린 젊은 여성.
         아래를 내려다보며 자신감 있고 장난기 있는 표정.

Outfit: 작은 빨간 리본이 달린 흰색 민소매 탑 + 빨간·흰색 체크 플리티드 미니스커트.
        진주 펜던트 목걸이. 맨발.

Pose: 계단 4~5번째 칸에 앉아, 허리를 틀어 아래를 내려다보며
      왼손은 번 헤어를 만지고, 오른손은 난간에.

Composition: 계단 아래에서 위를 올려다보는 극단적 저각도 수직 구도(9:16).

이 프롬프트가 생성한 결과는 4개의 이미지가 모두 동일한 공간, 동일한 캐릭터, 동일한 의상으로 일관되게 나타납니다. 우연이 아닙니다. 프롬프트가 화가의 설계도처럼 AI의 선택 범위를 좁혀놓은 결과입니다.

특히 주목할 점은 구도까지 명시한다는 것입니다. "계단 아래에서 위를 올려다보는 저각도 수직 구도"라고 지정하면, AI는 카메라 앵글도 그에 맞게 설정합니다.


프롬프트 설계의 다섯 가지 축

두 예시를 통해 드러나는 공통된 구조가 있습니다. 정교한 프롬프트는 대체로 다섯 가지 축을 다룹니다.

1. 피사체와 행동

무엇이 어디서 무엇을 하는지. "눈표범이 한 발을 들고 걷는다"처럼 행동과 자세를 구체화합니다. "아름다운 여성"보다 "파란 눈, 흰 금발, 높은 번 헤어를 가진 여성"이 훨씬 재현 가능합니다.

2. 환경과 배경

피사체 뒤에 무엇이 있는지. 배경을 지정하지 않으면 AI가 임의로 채웁니다. "분홍색 딸기 테마 계단 홀, 아치형 문, 크리스탈 샹들리에"처럼 구체적인 공간을 그리면 일관된 결과가 나옵니다.

3. 조명

빛은 이미지의 분위기를 결정짓는 가장 강력한 요소입니다. "따뜻한 자연광이 아치형 창문으로 들어오며 따뜻한 광채를 만든다"처럼 방향, 질감, 온도를 지정합니다.

4. 카메라와 구도

어느 앵글에서, 어떤 렌즈로, 어떤 비율로 찍었는지. "저각도 수직 구도(9:16)", "iPhone 15 Pro Max", "영화적 로우앵글"처럼 촬영 스타일을 명시합니다.

5. 품질과 스타일

"ultra_photorealistic, raw style, 8k"처럼 최종 결과물의 질감과 스타일 방향을 앞에 선언합니다. 이 레이어가 전체 이미지의 렌더링 방향을 잡아줍니다.


동영상 생성에서는 여기에 '시간'이 더해진다

이미지 생성 프롬프트에 익숙해지면, 동영상 생성도 같은 원리로 확장됩니다. 차이는 시간 차원이 하나 더 생긴다는 것입니다.

동영상 프롬프트에서는 추가로 다음을 지정할 수 있습니다:

  • 무엇이 어떻게 움직이는지 — "꽃잎이 살랑이고 나비가 날갯짓한다"
  • 카메라 무브먼트 — "천천히 줌 인", "옆으로 패닝"
  • 시작과 끝 상태 — 어떤 장면에서 어떤 장면으로

이 요소들을 지정하지 않으면 AI가 임의로 움직임을 만들어냅니다. 원하는 동영상이 아닐 확률이 높습니다.


AI에게 지시하지 말고, 설계하라

AI 이미지 생성을 처음 접하면 자연스럽게 짧은 키워드를 넣게 됩니다. "고양이", "일몰", "판타지 전사". 그 결과를 보고 마음에 들지 않으면 재생성을 누릅니다.

하지만 모델이 이미지를 이해하는 방식을 알고 나면, 접근 방식이 달라집니다. AI는 지정하지 않은 것을 임의로 채웁니다. 그렇다면 내가 원하는 것을 최대한 명확하게 지정하는 것이 재생성을 반복하는 것보다 훨씬 효율적입니다.

프롬프트는 AI에게 내리는 명령이 아닙니다. 그리려는 이미지의 모든 영역을 미리 설계하는 과정입니다. 화가가 붓을 들기 전 캔버스를 상상하듯, 프롬프트 작성자는 생성하기 전 이미지 전체를 글로 그려야 합니다.

LocalBanana의 눈표범 프롬프트 출처인 @NanoBanana는 흥미롭게도 XBRUSH에서 사용하는 AI 모델과 이름이 같습니다. 이미지 생성의 기술적 깊이를 탐구하는 개발자 그룹의 작업을 실제 서비스에서 경험할 수 있다는 점도 흥미롭습니다.

Share article