-
생성 모델의 발전 과정: Autoencoder, VAE, GAN, 그리고 DiffusionAI 2026. 5. 2. 21:21
최근 딥러닝 분야에서 가장 주목받는 주제 중 하나는 단연 생성 모델(Generative Model)입니다. 생성 모델은 주어진 학습 데이터를 바탕으로 그 데이터가 가지는 확률 분포를 파악하여, 기존에 없던 완전히 새로운 데이터를 만들어내는 알고리즘입니다.
과거에는 단순히 데이터를 압축하고 복원하는 데 그쳤다면, 이제는 물리적인 확산 원리를 이용해 무(無)에서 유(有)를 창조하는 수준까지 발전했습니다. 오늘은 생성 모델의 뼈대가 되는 Autoencoder(AE)부터, 확률적 접근을 더한 VAE(Variational Autoencoder), 적대적 학습으로 생성 모델의 새 지평을 연 GAN(Generative Adversarial Network), 그리고 현재 생성 AI의 정점으로 불리는 Diffusion(디퓨전) 모델까지 그 핵심 개념과 수식을 차근차근 정리해 보겠습니다.
1. Autoencoder (AE): 데이터의 압축과 복원
VAE를 이해하기 위해서는 먼저 그 모태가 되는 Autoencoder(AE)를 짚고 넘어가야 합니다.
AE의 구조와 목적
Autoencoder는 입력 데이터 $X$를 본래의 모습으로 다시 재구성(Reconstruction)하는 것을 목표로 하는 비지도 학습 모델입니다. 크게 두 부분으로 나뉩니다.
- Encoder (인코더): 고차원의 입력 데이터 $X$를 저차원의 Latent Vector(잠재 벡터) $z$로 압축합니다. 이 과정을 통해 데이터의 핵심적인 특징(Feature)만 추출됩니다.
- Decoder (디코더): 압축된 Latent Vector $z$를 입력받아 다시 원본 데이터와 최대한 유사한 $X'$로 복원합니다.
참고로 auto "정답이 따로 있는 게 아니라, 자기 자신(Auto)을 정답으로 삼아 인코딩(Encoder)하기 때문"에 붙여진겁니다.
AE는 왜 생성 모델이 아닐까?
Autoencoder의 주 목적은 '생성(Generation)'이 아닌 '특징 추출(Feature Extraction)'과 '차원 축소'에 있습니다.
AE가 학습하는 Latent Space(잠재 공간)는 연속적이지 않습니다. 즉, 입력 이미지를 $z$라는 '단 하나의 고정된 점(Value)'으로 매핑하기 때문에, 잠재 공간 상의 임의의 점을 추출해 디코더에 넣으면 의미 없는 노이즈가 출력됩니다. 새로운 데이터를 생성하기 위해서는 잠재 공간이 '연속적인 확률 분포'를 가져야 하는데, AE는 이를 충족하지 못합니다.

AE & VAE 2. Variational Autoencoder (VAE): 확률 분포를 통한 생성
AE의 한계를 극복하고, 새로운 데이터를 생성하기 위해 등장한 것이 바로 VAE(Variational Autoencoder)입니다. 기존 AE와 구조는 비슷하지만, 탄생 배경과 목적(Decoder를 통한 생성)이 완전히 다릅니다.

- 뒷단(Decoder, 생성)을 학습시키기 위해 앞단을 붙인 것이다.
- 그런데 공교롭게도 그 구조를 보니 AE와 같다.
VAE란?
VAE는 Input Image $X$를 잘 설명하는 Feature를 추출하여 Latent vector $z$에 담고, 이를 통해 $X$와 유사하지만 완전히 새로운 데이터를 생성하는 것을 목표로 합니다.
핵심은 잠재 벡터 $z$를 단일 값이 아니라 가우시안 정규 분포(Gaussian Distribution)를 따르는 확률 변수로 가정한다는 것입니다.
예를 들어 사람의 얼굴을 그릴 때, AE는 '눈의 크기=1.5'라는 고정값을 찾지만, VAE는 '눈의 크기 평균=1.5, 분산=0.2'라는 확률 분포를 찾습니다. 이 분포 안에서 무작위로 값을 샘플링(Sampling)하여 디코더에 넣으면, 매번 조금씩 다른 그럴듯한 얼굴이 생성되는 원리입니다.
VAE의 핵심 수식과 학습 원리
VAE의 학습은 모델의 파라미터 $\theta$가 주어졌을 때 우리가 원하는 정답인 $X$가 나올 확률, 즉 $p_\theta(X)$ (Likelihood)를 최대화하는 방향으로 진행됩니다. VAE의 손실 함수(Loss Function)는 다음과 같이 두 가지 항으로 구성됩니다.
- Reconstruction Loss (복원 오차): 디코더가 원본 이미지를 얼마나 잘 복원하는지를 측정합니다. (일반적으로 Cross Entropy나 MSE 사용)
- Regularization (정규화 / KL Divergence): 인코더가 만들어낸 $z$의 확률 분포 $q_\phi(z|x)$가 표준 정규 분포 $N(0, I)$와 얼마나 유사한지를 측정하는 KL Divergence($D_{KL}$) 값입니다. 이를 통해 잠재 공간이 특정 데이터에 과적합되지 않고 연속적이고 예쁘게 군집화되도록 강제합니다.
💡 핵심 디테일: Reparameterization Trick (재매개변수화 트릭)
VAE 모델을 학습할 때, 평균($\mu$)과 분산($\sigma^2$)에서 $z$를 무작위로 샘플링하면 미분 불가능(Non-differentiable)해져서 역전파(Backpropagation)를 할 수 없는 문제가 발생합니다. 이를 해결하기 위해 $z = \mu + \sigma \odot \epsilon$ (여기서 $\epsilon \sim N(0, I)$) 형태로 식을 변형하여 역전파가 가능하도록 만드는 기법이 사용됩니다.
VAE의 장단점
- 장점: 확률 모델을 기반으로 하기 때문에 Latent Code를 유연하게 계산할 수 있으며, Latent Space가 연속적이어서 공간 내 보간(Interpolation)을 통해 데이터가 자연스럽게 변화하는 모습을 볼 수 있습니다.
- 단점: Density를 간접적으로 구하는 방식이고, MSE 등의 손실 함수 특성상 생성된 이미지가 약간 흐릿(Blurry)하게 나오는 경향이 있습니다.

3. Generative Adversarial Network (GAN): 적대적 학습
2014년 Ian Goodfellow가 발표한 GAN은 딥러닝의 거장 얀 르쿤(Yann LeCun)이 "최근 20년간 기계학습 분야에서 가장 멋진 아이디어"라고 극찬한 모델입니다. VAE가 확률 분포를 수학적으로 엄밀하게 계산(Density Estimation)하려 했다면, GAN은 Likelihood-free 모델로서 철저히 두 네트워크 간의 경쟁을 통해 이미지를 생성합니다.
GAN의 직관적 이해: 위조지폐범과 경찰
GAN에는 두 개의 신경망이 존재합니다.
- Generator (G, 생성자 / 위조지폐범): Random Noise()를 입력받아 진짜 데이터와 유사한 Fake 데이터를 만들어냅니다. 목표는 경찰(D)을 완벽하게 속이는 것입니다.
- Discriminator (D, 판별자 / 경찰): 입력받은 데이터가 진짜(Real)인지 가짜(Fake)인지 판별합니다. 목표는 위조지폐범(G)이 만든 가짜를 정확히 찾아내는 것입니다.
이 둘은 적대적(Adversarial)으로 학습합니다. G는 더 정교한 위조지폐를 만들고, D는 더 예리하게 감별하는 능력을 키웁니다. 학습이 이상적으로 완료되면, G가 만든 데이터가 실제 데이터 분포와 완전히 같아져서 D가 진짜와 가짜를 구별할 확률이 딱 50%(0.5)가 됩니다.
GAN의 최종 목적지는 Generator(생성자)를 완성하는 것이니다.
GAN의 목적 함수 (Objective Function)
GAN은 Minimax Game 형태의 목적 함수를 가집니다.
- Discriminator (D)의 입장 (Maximize): 진짜 데이터 가 들어오면 이 되어 이 되길 원합니다. 가짜 데이터 $G(z)$가 들어오면 이 되어 이 되길 원합니다. 따라서 D는 위 식을 최대화(Gradient Ascent)하는 방향으로 학습합니다.
- Generator (G)의 입장 (Minimize): G는 뒷부분의 식에만 관여합니다. G가 만든 가짜 데이터 $G(z)$를 D가 진짜(1)로 착각하게 만들어야 하므로, 이 되길 원합니다. 이 경우 가 됩니다. 따라서 G는 위 식을 최소화(Gradient Descent)하는 방향으로 학습합니다.
💡 수식적 증명: Jenson-Shannon Divergence (JSD) 수식적으로 최적의 판별자 $D^*G(x)$를 구하여 목적 함수에 대입해보면, GAN의 학습은 결국 실제 데이터의 분포 $p{data}$와 생성된 데이터의 분포 사이의 **Jenson-Shannon Divergence(JSD)**를 최소화하는 과정과 동일하다는 것이 증명됩니다.
GAN의 한계 (Limitations)
GAN은 선명하고 뛰어난 이미지를 생성하지만 치명적인 단점도 존재합니다.
- Training Instability (학습의 불안정성): G와 D가 번갈아 가며 학습하는 구조상, 한쪽의 성능이 압도적으로 좋아지면 학습이 멈춰버립니다. 서로 쫓고 쫓기는 진동(Oscillation) 현상이 발생하여 Global Optimum에 도달하기 어렵습니다.
- Mode Collapse (모드 붕괴): "나는 한 놈만 팬다." 생성자가 판별자를 속이는 데 성공한 특정 소수의 이미지(또는 패턴)만 무한히 생성해 내는 현상입니다. 데이터의 다양성을 잃어버리고 한두 가지 샘플만 만들어내는 치명적인 문제가 발생할 수 있습니다.
4. 요약: VAE vs GAN
특징Variational Autoencoder (VAE)Generative Adversarial Network (GAN)목적 함수 Reconstruction Loss + KL Divergence (수학적 확률 계산) Minimax Game (경쟁 및 적대적 학습) 생성 이미지 질 상대적으로 흐릿함 (Blurry) 매우 선명함 (Sharp) 잠재 공간(Latent) 명시적으로 제어 가능, 매끄러운 연속성 (Interpolation 강점) 제어하기 어려움 (이후 StyleGAN 등으로 발전) 학습 안정성 학습이 비교적 안정적이고 쉽다 Mode Collapse 등 학습이 매우 불안정함 Sheets로 내보내기초기 GAN의 불안정성을 극복하기 위해 이후 DCGAN, WGAN, StyleGAN 등으로 수많은 후속 연구가 이어졌으며, 최근에는 VAE의 장점과 융합되거나 Diffusion Model(디퓨전 모델)의 등장으로 생성 모델의 생태계는 더욱 폭발적으로 발전하고 있습니다.
딥러닝 생성 모델을 공부하시는 분들께 이 흐름이 유용한 지도가 되기를 바랍니다.
5. Diffusion
Diffusion 모델은 데이터에 노이즈(Noise)를 조금씩 더해가거나, 반대로 노이즈로부터 데이터를 조금씩 복원해가는 과정을 통해 새로운 데이터를 생성하는 모델입니다.
이 모델의 핵심 아이디어는 "이미지를 완전히 망가뜨리는 법(노이즈 추가)을 안다면, 그 과정을 거꾸로 되돌려(노이즈 제거) 새로운 이미지를 만들 수도 있지 않을까?"라는 질문에서 시작합니다.
- $x_0$: 노이즈가 없는 실제 데이터 (이미지).
- $x_T$: 정보를 완전히 잃어버린 상태의 최종 노이즈.
- $x_t$: $0 < t < T$ 사이의 상태로, 데이터에 노이즈가 어느 정도 섞인 중간 단계의 잠재 변수(Latent Variable).

두 가지 핵심 프로세스
Diffusion 모델은 크게 두 가지 단계를 거칩니다.
① Forward Process (Diffusion Process)
실제 데이터 $x_0$에서 시작하여 $x_T$가 될 때까지 점진적으로 가우시안 노이즈를 추가하는 과정입니다.
- 오른쪽에서 왼쪽 방향으로 진행되며, 데이터의 형체를 서서히 파괴합니다.
- 이 과정은 고정되어 있으며(Fixed), 별도의 학습이 필요하지 않습니다.
② Reverse Process (Generative Process)
Diffusion 모델의 진정한 학습 목표입니다. Forward process의 역과정을 추정하여 $x_T$라는 완전한 노이즈로부터 데이터 $x_0$을 복원하는 방법을 배웁니다.
- 모델은 각 단계 $t$에서 섞여 있는 노이즈가 무엇인지 예측하고 이를 제거합니다.
- 이 Reverse process를 활용하면 아무 의미 없는 Random noise로부터 우리가 원하는 이미지, 텍스트, 그래프 등을 정교하게 생성할 수 있습니다.
학습 목표와 수식적 이해
Diffusion 모델의 최종 목적은 모델 파라미터 $\theta$를 최적화하여 실제 데이터의 확률 분포인 $p_\theta(x_0)$를 모델링하는 것입니다.
이를 수식으로 표현하면 아래와 같습니다.
$$p_\theta(x_0) = \int p_\theta(x_{0:T}) dx_{1:T}$$하지만 모든 단계의 적분값을 직접 구하는 것은 계산적으로 불가능(Intractable)하기 때문에, 실제로는 VAE와 유사하게 Variational Lower Bound(ELBO)를 최대화하는 방향으로 학습이 진행됩니다. 결과적으로 모델은 "현재 이미지 $x_t$에 포함된 노이즈가 무엇인가?"를 예측하도록 훈련됩니다.
Diffusion 모델의 특징과 장점
- 복원과 생성의 조화: 노이즈 섞인 이미지에서 원본을 완벽히 복원하는 것은 불가능하지만, 모델은 학습한 분포를 바탕으로 그와 유사한 새로운 이미지를 만들어 낼 수 있습니다.
- 높은 생성 품질: GAN에 비해 학습이 안정적이며, VAE보다 훨씬 더 선명하고 고해상도의 이미지를 생성할 수 있습니다.
- 다양성: 특정 모드에 갇히는 Mode Collapse 현상이 적어, 훨씬 다양한 결과물을 만들어냅니다.
발전을 이끈 핵심 모델: DDPM과 DDIM
초기 Diffusion 모델은 생성 속도가 매우 느리다는 치명적인 단점이 있었습니다. 이를 극복하며 대중화를 이끈 두 모델이 있습니다.
- DDPM (Denoising Diffusion Probabilistic Models): Diffusion 모델을 본격적으로 딥러닝에 적용하여 뛰어난 성능을 증명한 모델입니다. 노이즈를 예측하는 목적 함수를 단순화하여 성능을 끌어올렸습니다.
- DDIM (Denoising Diffusion Implicit Models): DDPM의 느린 생성 속도를 개선한 모델입니다. 확률적인 과정을 결정론적(Deterministic)으로 바꾸어, 훨씬 적은 수의 단계만으로도 고품질의 이미지를 빠르게 생성할 수 있게 했습니다.
'AI' 카테고리의 다른 글
Vision Transformer(ViT) (0) 2026.05.05 크로스 엔트로피(Cross Entropy) (0) 2026.05.02 생성 모델(Generative Model) (0) 2026.05.02 PEFT의 핵심: "기존 모델은 얼리고, 추가 레이어만 학습한다" (1) 2026.04.18 NLP 성능 평가: 단순 수치를 넘어 '맥락'을 읽는 법 (0) 2026.04.18