ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 사전학습(Pre-training)의 핵심
    AI 2026. 2. 6. 07:29

    최근 AI 모델의 비약적인 발전 뒤에는 '처음부터 가르치지 않는다'는 전략이 있습니다. 오늘은 현대 인공지능의 근간이 되는 사전학습(Pre-training)과 그 과정에서 파생되는 핵심 개념들을 아주 자세히 파헤쳐 보겠습니다.

     

    핵심 개념: 백본(Backbone)과 파운데이션 모델(Foundation Model)

    먼저 지능의 '몸체'를 담당하는 두 가지 용어를 구분해야 합니다.

    • 백본(Backbone) - 특징 추출기(Feature Extractor)
      • 정의: 모델의 '척추'입니다. 데이터(이미지, 텍스트 등)를 입력받아 가장 핵심적인 정보(특징)만 골라내는 역할을 합니다.
      • 관점: 구조적(Structural) 관점입니다. 주로 모델의 앞부분을 지칭하며, 뽑아낸 특징을 기반으로 뒤에 어떤 '머리(Head)'를 붙이느냐에 따라 분류기가 될 수도, 생성기가 될 수도 있습니다.
      • 실무 활용: 주로 특정 태스크(분류, 검출 등)를 수행하기 위해 불러오는 신경망의 뼈대를 의미합니다. (예: ResNet, EfficientNet, ViT의 인코더 부분)
    • 파운데이션 모델(Foundation Model) - 지능의 플랫폼
      • 정의: 방대한 양의 데이터를 사전학습하여, 아주 다양한 다운스트림 태스크에 범용적으로 적용할 수 있는 거대 인공지능 지능체입니다.
      • 특징: 백본이 '기술적 부품'이라면, 파운데이션 모델은 그 부품을 포함해 구축된 '완성형 지식 플랫폼*입니다.
      • 관점: 기능적/생태계적(Functional) 관점입니다. 파운데이션 모델은 매우 강력한 백본을 내장하고 있으며, 그 자체로 이미 거대한 지식 체계를 갖춘 완성형 플랫폼입니다. (예: GPT-4, Llama 3)

    💡 한 줄 정리: 백본이 자동차의 '고성능 엔진'이라면, 파운데이션 모델은 그 엔진을 달고 어떤 지형이든 달릴 수 있게 설계된 '다목적 베이스 차량'입니다.

     

    Foundation Model

    과거의 NLP는 목적에 따라 도구가 제각각이었습니다.

    • 2019년 이전: RNN, LSTM, seq2seq 등이 각자의 영역에서 동등한 위치를 차지하며 병렬적으로 발전했습니다. (특정 태스크를 위한 전용 도구 시대)
    • 2019년 이후 (BERT의 등장): BERT, RoBERTa, T5 같은 모델이 등장하며 '표준'이 생겼습니다. 이제 모든 NLP 연구는 이 거대한 모델들을 뿌리(Foundation) 삼아 뻗어 나가는 구조로 바뀌었습니다.

     

    균질화 (Homogenization): 고효율의 양날의 검

    균질화란 수많은 AI 시스템이 결국 '몇 개의 거대 모델'을 기반으로 만들어진다는 뜻입니다.

    • High Leverage (높은 레버리지): 뿌리가 되는 백본 모델(예: BERT, Llama) 하나만 개선하면, 이를 사용하는 수천 개의 하위 시스템이 동시에 똑똑해집니다. 효율성이 극대화되는 지점입니다.
    • Shared Risks (위험의 대물림): 반대로, 뿌리 모델에 데이터 편향이나 결함이 있다면 그 뿌리를 둔 모든 시스템이 동일한 결함을 물려받게 됩니다. 오류마저도 균질화되는 위험이 있습니다.

    창발 (Emergence): 예측 불가능한 지능의 탄생

    그렇다면 파운데이션 모델의 진정한 신비로움은 어디에 있을까요? 바로 **창발(Emergence)**입니다.

    • 정의: 창발이란 모델의 규모를 키웠을 때, 작은 모델에서는 전혀 볼 수 없었던 새로운 능력들이 갑자기 나타나는 현상을 말합니다.
    • 특징: 개발자가 의도적으로 학습시킨 능력이 아닙니다. 단지 데이터를 엄청나게 붓고 모델을 크게 만들었을 뿐인데, 어느 순간부터 수학 문제를 풀거나, 코딩을 하고, 추론을 하기 시작합니다.
    • LLM의 시작: 이 창발 현상이 가장 극적으로 나타나는 분야가 바로 거대 언어 모델(LLM)입니다. 특정 임계점(Threshold)을 넘는 순간 지능이 폭발하는 것이죠

     

     


    데이터의 흐름: 업스트림(Upstream)과 다운스트림(Downstream)

    데이터가 어떻게 학습되고 전달되는지에 따라 단계를 나눕니다.

    1. 업스트림(Upstream): 강줄기의 상류처럼 '기초 지식을 쌓는 과정'입니다. 거대 데이터를 통해 모델(백본/파운데이션 모델)을 만드는 사전학습(Pre-training) 단계가 여기에 해당합니다.
    2. 다운스트림(Downstream): 상류의 물을 받아 실제 농사를 짓듯, '구체적인 문제를 푸는 과정'입니다. 사전학습된 모델을 가져와 내 프로젝트(스팸 분류, 의료 영상 판독 등)에 적용하는 단계입니다.우리가 흔히 말하는 '전이학습'이 실제로 일어나는 단계가 바로 이 다운스트림입니다.

     

    지식의 활용: 전이학습(Transfer Learning)과 미세조정(Fine-tuning)

    사전학습된 모델을 가져왔다면, 이제 내 목적에 맞게 손질해야 합니다.

    이때 우리는 모델을 '몸통'과 '헤드'라는 두 부분으로 나누어 생각하면 이해가 쉽습니다.

    • 몸통 (Backbone/Body): 데이터의 핵심 특징을 뽑아내는 기초 지식 부분입니다. (이미지의 선, 면, 형태 파악 등)
    • 헤드 (Head): 몸통이 뽑아준 정보를 바탕으로 최종 정답(분류, 생성 등)을 내리는 부분입니다.

    전이학습 (Transfer Learning)

     "A를 위해 배운 지식을 B에 활용한다"는 전략입니다.
    전이 학습은 특정 환경에서 학습을 마친 신경망(일부 혹은 전부)을 유사하거나 다른 환경에서 사용하는 것을 의미합니다. 쉽게 생각해 보면, 사과를 깎는 것을 배운 아이에게 배를 깎도록 다시 학습시키는 거죠. 이미 사과를 깎는 것을 배웠으니 비슷하게 생긴 배도 유사한 방법으로 쉽게 깎을 수 있을 것이라고 생각이 들죠?
    이미 공부가 끝난 똑똑한 몸통은 그대로 빌려오고, 내가 풀고 싶은 문제에 맞는 새로운 헤드만 갈아 끼우는 것이 핵심입니다.

     

     

    미세조정 (Fine-tuning)

    전이학습을 구현하는 구체적인 방법입니다.대규모 데이타세트로 사전학습된 모델을 작은 데이타세트를 추가 학습해 가중치와 편향을 수정하는것을 말합니다. 즉 주어진 문제(다운스트림 테스크 혹은 downstream task)를 잘 풀기 위해 pretrained model을 재학습시키는 것을 fine-tuning이라고 부릅니다.

    • 실무 Action: 사전학습된 백본의 가중치(Weight)를 가져온 뒤, 마지막 층(Head)을 내 데이터 레이블 수에 맞게 교체하고 내 데이터로 다시 학습시킵니다.
    • Freeze vs Unfreeze: 데이터가 적으면 백본의 가중치를 고정(Freezing)하고 헤드만 학습시키며, 데이터가 충분하면 전체 가중치를 아주 미세하게 업데이트(Unfreezing)하여 최적화합니다.

     

    데이터 상황별 미세조정(Fine-tuning) 4대 전략

    1. 데이터 적음 + 유사도 높음 (Best Case)

    • 전략: 분류기(Classifier)만 학습
    • 설명: 이미 백본이 내 데이터와 비슷한 특징을 다 알고 있습니다. 데이터가 적은데 백본까지 건드리면 오히려 이미 잘 배운 지식을 망가뜨리는 과적합(Overfitting)이 발생합니다.
    • Action: 합성곱 계층(백본)은 모두 동결(Freeze)하고, 마지막 출력층(Head)만 내 데이터에 맞게 새로 달아 학습시킵니다.

    2. 데이터 많음 + 유사도 낮음 (Power Case)

    • 전략: 전체 모델 재학습 (Fine-tune All)
    • 설명: 데이터가 충분하기 때문에 모델을 내 목적에 맞게 완전히 개조할 수 있습니다. 유사도가 낮으므로 기존 가중치는 '좋은 초기값' 정도로만 활용하고, 전체를 다시 학습시키는 것이 성능이 가장 좋습니다.
    • Action: 백본과 분류기를 모두 열어두고(Unfreeze) 전체 매개변수를 업데이트합니다.
    머신러닝(특히 딥러닝)에서 매개변수(Parameter)는 사실상 가중치(Weights, $w$)와  편향(Bias, $b$)을 통칭하는 말입니다.

    3. 데이터 적음 + 유사도 낮음 (Worst Case)

    • 전략: 하위 계층 동결 + 상위 계층 일부 & 분류기 학습
    • 설명: 가장 까다로운 상황입니다. 전체를 학습하기엔 데이터가 부족해 과적합이 뻔하고, 유사도가 낮아 백본 전체를 그대로 쓰기도 어렵습니다.
    • 핵심 원리: 딥러닝의 하위 계층(입력에 가까운 쪽)은 '선, 면, 점' 같은 범용적 특징을 뽑고, 상위 계층은 '구체적인 형태'를 뽑습니다. 따라서 '선, 면' 지식은 빌려 쓰고, 구체적 형태를 잡는 뒷부분만 내 데이터로 가르치는 타협안을 선택합니다.
    • Action: 모델의 깊은 곳(상위 계층)부터 조금씩 열어가며 최적의 지점을 찾습니다.

    4. 데이터 많음 + 유사도 높음 (Ideal Case)

    • 전략: 상위 계층 일부 & 분류기 학습
    • 설명: 이미 유사도가 높으므로 백본이 훌륭한 상태입니다. 하지만 데이터가 많으니, 분류기에 직접적인 영향을 주는 상위 계층(고수준 특징 추출 부분)을 내 데이터에 더 딱 맞게 미세하게 튜닝하면 성능을 극대화할 수 있습니다.
    • Action: 백본의 앞부분은 얼려두고, 뒷부분 일부와 분류기만 학습시킵니


     

    최신 트렌드: 가중치 수정 없는 N-Shot 학습

    최근 파운데이션 모델(LLM 등)은 모델이 너무 커서 미세조정조차 부담스러울 때가 많습니다. 이때 사용하는 것이 N-Shot 기법입니다.

    • 제로샷(Zero-shot): 예시 없이 질문만 던짐. (모델의 순수 지능 활용)
    • 원샷(One-shot): 딱 하나의 예시를 보여줌.
    • 멀티샷/퓨샷(Few-shot): 5~10개의 예시를 보여주어 패턴을 유도함.
    • 특징: 모델 내부의 가중치는 전혀 변하지 않습니다. 오직 프롬프트(Prompt)만으로 모델의 능력을 끌어냅니다.

     

    사전학습을 가능하게 하는 숨은 주역들

    사전학습 항목에서 꼭 알고 있어야 할 추가 개념들입니다.

    1. 자기지도학습 (Self-Supervised Learning): 사람이 정답(Label)을 달아주지 않아도, 데이터 스스로가 정답이 되어 학습하는 방식입니다. 문장에서 단어를 가리고 맞추거나(Masking), 다음 단어를 예측하는 과정이 여기에 해당합니다. 이 덕분에 무한대에 가까운 인터넷 데이터를 학습에 쓸 수 있게 되었습니다.
    2. PEFT (LoRA 등): 파운데이션 모델이 너무 커서 전체를 미세조정하기 힘들 때, 아주 작은 일부 파라미터만 추가로 학습시키는 효율적인 미세조정 기법입니다.
      1. LoRA (Low-Rank Adaptation): 기존 가중치는 그대로 두고, 옆에 아주 작은 크기의 행렬만 추가하여 그것만 학습시킵니다. 적은 자원으로도 거대 모델을 내 목적에 맞게 튜닝할 수 있는 핵심 기술입니다.

     

Designed by Tistory.