ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 생성 모델(Generative Model)
    AI 2026. 5. 2. 19:18

    생성 모델(Generative Model)에 대해 깊이 있게 다뤄보겠습니다. 단순히 "데이터를 만드는 AI"를 넘어, 그 이면에 담긴 수학적 원리와 해결 과제들을 정리했습니다.

     

    1. 생성 모델이란? (Generative vs Discriminative)

    가장 먼저 짚고 넘어갈 점은 기존의 판별 모델(Discriminative Model)과의 차이입니다.

    • 판별 모델: 데이터($x$)가 주어졌을 때 레이블($y$)을 맞추는 것이 목적입니다. 즉, Decision Boundary를 찾는 '판사'와 같습니다.
    • 생성 모델: 데이터 그 자체의 본질적인 규칙, 즉 데이터의 분포(Distribution)를 학습합니다. 세상에 존재하지 않지만 진짜 같은 샘플을 만들어내는 '예술가'의 영역입니다.

    수학적으로 표현하면, 판별 모델은 조건부 확률 $p(y \mid x)$에 집중하는 반면, 생성 모델은 전체 데이터의 결합 확률 분포인 $p(x, y)$ 혹은 $p(x)$를 학습합니다.

     

     

    2. 핵심 원리: $P_{data}$와 $P_{model}$의 만남

    생성 모델의 목표는 아주 명확합니다. 우리가 가진 실제 데이터의 분포 및 Traning data 분포 ($P_{data}$)와 모델이 만들어낸 분포($P_{model}$) 사이의 거리를 최소화하는 것입니다.

    이 학습 방식은 크게 두 가지로 분류됩니다.

    1. Explicit Density (명시적 밀도 추정): 모델의 확률 밀도 함수를 수식으로 확실히 정의합니다. (예: VAE)
    2. Implicit Density (암시적 밀도 추정): 함수를 직접 정의하지 않고, 샘플을 생성하며 분포를 간접적으로 맞추어 나갑니다. (예: GAN)

    데이터셋에 $N$개의 이미지가 있다면, 수학자들은 $p_{data}(x)$를 다음과 같이 정의해 버립니다.

    $$p_{data}(x) = \frac{1}{N} \sum_{i=1}^{N} \delta(x - x_i)$$

    여기서 $x_i$는 우리가 가진 실제 이미지 파일(벡터)이고, $\delta$는 그 지점에서만 값이 무한대이고 나머지는 0인 함수입니다. 즉, "우리가 가진 데이터 포인트들에만 확률이 1/N씩 몰려 있고, 나머지는 확률이 0이다"라고 아주 불친절하게 정의하는 것이죠.

     

    3. 생성 모델이 해결하는 3가지 과제

    좋은 생성 모델이라면 다음 세 가지 기능을 수행할 수 있어야 합니다.

    과제 설명 이상적인 결과
    Density Estimation 주어진 데이터 $x$가 모델 내에서 발생할 확률($p_{\theta}(x)$) 계산 강아지 사진에는 높은 확률을, 노이즈에는 낮은 확률 부여
    Sampling 학습 데이터에 없는 새로운 데이터를 생성 학습 데이터엔 없지만 누가 봐도 완벽한 강아지 이미지 생성
    Representation Learning 데이터의 의미 있는 특징(Feature) 학습 품종, 색상 등 고차원 특징을 스스로 파악

     

    3.1. 생성 모델의 진정한 묘미: Representation Learning

    생성 모델이 단순히 "샘플을 잘 뽑는 것"에 그치지 않고 AI 연구에서 핵심적인 위치를 차지하는 이유는 바로 표현 학습(Representation Learning)에 있습니다. 이는 고차원의 데이터(이미지, 음성 등)에서 핵심적인 특징(Feature)을 추출하여 저차원의 벡터 공간으로 옮기는 과정을 의미합니다.

    ① 매니폴드 가설 (Manifold Hypothesis)

    우리가 다루는 고해상도 이미지는 수만 개의 픽셀로 이루어진 고차원 데이터입니다. 하지만 그 안의 의미 있는 정보(예: 강아지의 형태, 배경의 질감)는 훨씬 낮은 차원의 공간에 존재한다는 것이 매니폴드 가설입니다. 생성 모델은 학습을 통해 이 복잡한 고차원 데이터를 유의미한 잠재 공간(Latent Space, $z$)으로 압축하는 법을 배웁니다.

    ② 의미적 응축: Latent Space의 마법

    잘 학습된 생성 모델의 잠재 공간에서는 수치적인 연산이 곧 '의미의 변화'로 이어집니다.

    • Vector Arithmetic: VAE나 GAN의 잠재 벡터를 조절하여 "안경 쓴 남자 - 안경 + 여자 = 안경 쓴 여자"와 같은 의미적 연산이 가능해집니다.
    • Disentangled Representation (얽힘 해제): 좋은 표현 학습이란 데이터의 여러 특징(예: 얼굴의 각도, 머리 색깔, 표정)을 독립적인 축으로 분리해내는 것입니다. 이를 통해 우리는 특정 속성만 정교하게 제어하여 데이터를 생성할 수 있습니다.

    ③ Downstream Task로의 확장성

    생성 모델을 통해 얻은 정교한 Representation은 다른 AI 모델의 성능을 높이는 밑거름이 됩니다.

    • Self-Supervised Learning: 레이블이 없는 방대한 데이터로 생성 모델을 먼저 학습시킨 뒤, 여기서 추출된 특징을 분류(Classification)나 검출(Detection) 모델에 활용하면 훨씬 적은 데이터로도 높은 성능을 낼 수 있습니다.
    • Data 이해의 척도: 모델이 데이터를 완벽하게 재구성(Reconstruction) 하거나 생성할 수 있다는 것은, 해당 데이터 도메인의 내재된 규칙을 완벽하게 이해했음을 증명하는 지표가 됩니다.

    4. 왜 생성 모델이 필요한가? (Why Generative?)

    최근 Vision Transformer(ViT)와 같은 최신 구조들은 방대한 양의 데이터를 요구합니다. 생성 모델은 이 과정에서 혁신적인 역할을 합니다.

    1. 데이터 증강(Data Augmentation): 사람이 일일이 라벨링 하기 힘든 데이터를 AI가 직접 생성하여 학습 데이터 부족 문제를 해결합니다.
    2. 예술적 응용(Style Transfer): 스케치에 채색을 하거나, 실사 사진을 웹툰 화풍으로 변환하는 등 다양한 Artwork를 창조합니다.
    3. 초해상도(Super Resolution): 저해상도 이미지를 SRGAN 등을 통해 고해상도로 변환하여 디테일을 살려냅니다.

     

    5. 생성 모델의 다채로운 애플리케이션

    생성 모델은 이미지를 넘어 다양한 도메인으로 확장되고 있습니다.

    • 차세대 프레임 예측: 동영상의 이전 장면을 보고 미래 프레임을 예측합니다.
    • 텍스트-이미지 변환: 텍스트 설명만으로 정교한 이미지를 생성합니다.
    • 3D 모델 생성: 2D 사진 한 장으로 로봇 공학이나 애니메이션에 쓰일 3D 에셋을 만듭니다.
    • 코드 생성: Antigravity와 같은 도구처럼 프로그래밍 생산성을 극대화하는 코드 생성 에이전트 영역까지 확장되었습니다.

     

    6. 주요 아키텍처 한눈에 보기

    제공된 이미지를 참고하면, 현재 주류를 이루는 세 가지 모델의 특징을 이해할 수 있습니다.

    • GAN (Adversarial Training): 진짜 같은 가짜를 만드는 생성기(Generator)와 이를 잡아내려는 판별기(Discriminator)의 경쟁을 통해 학습합니다.
    • VAE (Variational Lower Bound): 데이터를 압축(Encoder)했다가 다시 복원(Decoder)하는 과정에서 하한값(Lower Bound)을 최대화하며 학습합니다.
    • Diffusion Models: 데이터에 노이즈를 섞었다가 다시 제거하는 역과정을 반복하며 데이터를 생성합니다. 최근 가장 압도적인 성능을 보여주는 방식입니다.

     

Designed by Tistory.