ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Transformer의 원리부터 GPT, LLaMA, Mistral 비교까지
    AI 2026. 1. 27. 17:32

    오늘날 우리가 사용하는 모든 최신 AI(GPT, Claude, LLaMA 등)의 조상은 2017년 구글이 발표한 Transformer(트랜스퍼머) 구조입니다.

    이 글에서는 AI의 핵심 엔진인 Transformer의 원리와, 이를 기반으로 발전한 Encoder/Decoder의 차이, 그리고 현재 시장을 주도하는 주요 LLM(거대언어모델)들의 특징을 알기 쉽게 정리해 드립니다.

     

     

    Transformer: AI 혁명의 시작

    Transformer는 한마디로 "문장 전체의 맥락을 한 번에 파악하는 모델"입니다. 기존 방식과 비교하면 그 혁신성이 더 잘 드러납니다.

    • 기존 방식 (RNN): 돋보기로 책을 한 글자씩 읽는 방식.
      • 단점: 문장이 길어지면 앞 내용을 까먹고, 순서대로 읽느라 속도가 느림.
    • Transformer: 책 페이지 전체를 사진 찍듯이 한눈에 보는 방식.
      • 장점: 문장 전체를 병렬로 처리하여 속도가 빠르고, 모든 단어 사이의 관계를 동시에 파악함.

    핵심 기술: Attention (어텐션)

    "문장에서 어떤 단어가 중요한지"를 계산하는 기술입니다.

    예시: "그는 사과를 깎아 먹었다"

    Transformer는 '먹었다'라는 단어를 처리할 때, 문장 전체를 보며 '사과'에 가장 높은 가중치(주목)를 둡니다.
    덕분에 AI는 문맥을 완벽하게 이해할 수 있습니다.

     

    Encoder와 Decoder: 이해와 생성

    원래 Transformer는 번역기(영어 입력 $\rightarrow$ 한국어 출력)를 위해 고안되었으며, 두 부분으로 나뉩니다.

    1. Encoder (인코더): 문장을 이해하는 역할. 입력된 정보를 압축하여 벡터(수치)로 변환합니다. (분석, 요약에 강점 $\rightarrow$ 예: BERT)
    2. Decoder (디코더): 문장을 생성하는 역할. 정보를 바탕으로 다음에 올 단어를 예측합니다. (창작, 대화에 강점 $\rightarrow$ 예: GPT)

    왜 요즘은 Decoder만 쓸까? (Decoder-only Model)

    GPT를 비롯한 최신 생성형 AI는 대부분 Encoder를 떼어내고 Decoder만 비대하게 키운 형태입니다.

    Decoder에게 "다음에 올 단어 맞히기"를 엄청나게 공부시켰더니, 번역뿐만 아니라 코딩, 소설 쓰기, 추론까지 잘한다는 것이 발견되었기 때문입니다.

     

    Decoder의 작동 원리: Masked Self-Attention

    Decoder 학습의 핵심은 "컨닝 금지(Masking)"입니다. 미래에 나올 정답 단어를 미리 보면 안 되기 때문에, 뒤쪽 단어에 가림막(Mask)을 치고 학습합니다.

    • 학습 과정 예시:
      1. 입력: "대한민국의 수도는" $\rightarrow$ 예측: [서울]
      2. 입력: "대한민국의 수도는 [서울]" $\rightarrow$ 예측: [입니다]

    이 과정을 무한히 반복하며 "과거의 맥락만 보고 미래를 예측하는 능력"을 극대화한 것이 바로 지금의 LLM입니다.


    주요 LLM 모델 비교 (GPT, LLaMA, PaLM, Mistral)

    현재 AI 시장을 이끄는 대표적인 4가지 모델 라인업의 특징입니다.

    ① GPT 시리즈 (OpenAI)

    생성형 AI 시대를 연 주역이자, 현재 가장 강력한 성능을 보여주는 모델입니다.

    • GPT-3: 모델 크기를 키우면 성능이 비례한다는 Scaling Law를 증명. 별도 학습 없이 프롬프트만으로 작업하는(Few-Shot) 시대를 열음.
    • GPT-4: RLHF(인간 피드백 강화학습)를 통해 사람처럼 자연스러운 대화가 가능하며, MoE(전문가 혼합) 구조로 추론 효율을 높였습니다.
    • 💡 추천: 범용적인 대화, 복잡한 코딩/추론 등 최고의 성능이 필요할 때 (단, 비용이 높음).

    ② LLaMA 시리즈 (Meta)

    폐쇄적인 GPT와 달리 "오픈형 모델"의 표준이 된 모델입니다.

    • 효율성 중심: 파라미터 수보다 학습 데이터 양(Token)이 더 중요하다는 Chinchilla Scaling Laws를 적용했습니다.
    • 기술적 특징: RoPE(위치 정보 처리), SwiGLU(활성화 함수 개선) 등을 적용해 작은 사이즈로도 강력한 성능을 냅니다.
    • 💡 추천: 기업 보안을 위해 자체 서버(On-premise)에 구축하거나, 특정 도메인용으로 파인튜닝(Fine-tuning)이 필요할 때.

    ③ PaLM / Gemini (Google)

    구글의 거대 모델로, 현재는 Gemini로 진화했습니다.

    • 추론 능력: CoT(Chain of Thought, 생각의 사슬) 프롬프팅을 통해 복잡한 수학, 논리 문제를 단계적으로 해결하는 데 강점이 있습니다.
    • 인프라: 구글의 Pathways 시스템을 통해 하나의 모델이 다양한 작업을 수행하도록 설계되었습니다.
    • 💡 추천: 높은 수준의 수학/과학적 추론이나 구글 생태계(Cloud)와의 연동이 필요할 때.

    ④ Mistral / Mixtral (Mistral AI)

    유럽에서 등장한 "괴물 신인"으로, 극강의 가성비와 효율을 자랑합니다.

    • SWA (Sliding Window Attention): 긴 문서를 처리할 때 윈도우를 이동시키며 필요한 부분만 봐서 메모리 효율을 높입니다.
    • MoE (Mixtral 8x7B): 8명의 전문가 모델 중 필요한 2명만 골라 쓰는 방식으로, 속도는 빠르면서도 대형 모델급 성능을 냅니다.
    • 💡 추천: 긴 문서(Long Context)를 요약하거나, LLaMA보다 더 빠르고 가성비 좋은 모델이 필요할 때.

     

    요약: 어떤 모델을 써야 할까?

    모델 핵심 강점 주요 기법 추천 상황
    GPT-4 압도적 성능, 범용성 RLHF, MoE 비용 상관없이 최고 성능이 필요할 때
    LLaMA 3 효율성, 오픈 생태계 RoPE, SwiGLU 자체 모델 구축, 연구/파인튜닝 목적
    PaLM(Gemini) 추론 능력, 확장성 Parallel Attention 수학/논리적 추론, 구글 서비스 연동
    Mistral 가성비, 긴 문맥 처리 SWA, Sparse MoE 긴 문서 분석, 빠른 응답 속도 필요 시
    • "성능이 무조건 1순위" $\rightarrow$ GPT-4 계열
    • "우리 회사 서버에 직접 설치해야 함" $\rightarrow$ LLaMA 3 (또는 Solar, HyperCLOVA X)
    • "리소스는 적은데 성능은 챙기고 싶음" $\rightarrow$ Mistral / Mixtral

     

Designed by Tistory.