전체 글
-
Swin Transformer: 계층적 비전 트랜스포머AI 2026. 5. 11. 15:35
2021년 Microsoft Research에서 발표한 Swin Transformer는 컴퓨터 비전 분야에서 트랜스포머를 백본(Backbone)으로 사용하는 방식에 큰 획을 그은 모델입니다. 기존 ViT가 가졌던 고질적인 문제들을 어떻게 해결했는지, 그리고 왜 이 모델이 객체 탐지(Detection)나 세그멘테이션(Segmentation)에서 탁월한 성능을 보이는지 자세히 분석해 보겠습니다. ViT(Vision Transformer)의 한계와 Swin의 등장 배경Swin Transformer를 이해하려면 먼저 기존 ViT가 가진 두 가지 치명적인 약점을 알아야 합니다.고해상도 이미지 처리의 어려움 (Complexity): ViT는 이미지 전체의 패치들 간에 셀프 어텐션을 수행합니다. 만약 이미지 해상도가..
-
Vision Transformer(ViT)AI 2026. 5. 5. 22:45
컴퓨터 비전 분야의 패러다임을 완전히 바꾼 비전 트랜스포머(Vision Transformer, ViT)에 대해 현존하는 가장 상세한 가이드를 작성해 보고자 합니다.2020년 구글 리서치 팀이 발표한 "An Image is Worth 16x16 Words" 논문은 CNN이 지배하던 이미지 인식 분야에 트랜스포머라는 새로운 가능성을 제시했습니다. 단순히 구조를 훑는 것을 넘어, 왜 이 모델이 강력한지 그 근본적인 철학부터 뜯어보겠습니다. 1. 근본적인 차이: 귀납적 편향(Inductive Bias)의 해체ViT를 진정으로 이해하기 위해서는 먼저 '귀납적 편향(Inductive Bias)'이라는 개념을 알아야 합니다.딥러닝 모델의 귀납적 편향이란, 모델이 본 적 없는 데이터를 일반화하여 예측하기 위해 설계 ..
-
크로스 엔트로피(Cross Entropy)AI 2026. 5. 2. 23:27
"두 확률 분포 간의 차이를 측정하는 지표 (A measure of the difference between two probability distributions)"인공지능 모델을 훈련시킬 때 '로스(Loss)를 줄인다'는 말을 자주 씁니다. 이때 분류(Classification) 문제에서 가장 많이 쓰이는 손실 함수가 바로 크로스 엔트로피(Cross Entropy)입니다.이 개념을 완벽히 이해하려면 먼저 '정보량(Information)'과 '엔트로피(Entropy)'라는 두 가지 산을 넘어야 합니다. 복잡한 수식의 공포를 뒤로하고, 이 세 가지 개념이 어떤 의미를 가지는지, 실제 계산은 어떻게 이루어지는지, 그리고 실무에서는 어떻게 적용되는지 아주 쉽게 알아보겠습니다.1. 정보량 (Information..
-
생성 모델의 발전 과정: Autoencoder, VAE, GAN, 그리고 DiffusionAI 2026. 5. 2. 21:21
최근 딥러닝 분야에서 가장 주목받는 주제 중 하나는 단연 생성 모델(Generative Model)입니다. 생성 모델은 주어진 학습 데이터를 바탕으로 그 데이터가 가지는 확률 분포를 파악하여, 기존에 없던 완전히 새로운 데이터를 만들어내는 알고리즘입니다.과거에는 단순히 데이터를 압축하고 복원하는 데 그쳤다면, 이제는 물리적인 확산 원리를 이용해 무(無)에서 유(有)를 창조하는 수준까지 발전했습니다. 오늘은 생성 모델의 뼈대가 되는 Autoencoder(AE)부터, 확률적 접근을 더한 VAE(Variational Autoencoder), 적대적 학습으로 생성 모델의 새 지평을 연 GAN(Generative Adversarial Network), 그리고 현재 생성 AI의 정점으로 불리는 Diffusion(디..
-
생성 모델(Generative Model)AI 2026. 5. 2. 19:18
생성 모델(Generative Model)에 대해 깊이 있게 다뤄보겠습니다. 단순히 "데이터를 만드는 AI"를 넘어, 그 이면에 담긴 수학적 원리와 해결 과제들을 정리했습니다. 1. 생성 모델이란? (Generative vs Discriminative)가장 먼저 짚고 넘어갈 점은 기존의 판별 모델(Discriminative Model)과의 차이입니다.판별 모델: 데이터($x$)가 주어졌을 때 레이블($y$)을 맞추는 것이 목적입니다. 즉, Decision Boundary를 찾는 '판사'와 같습니다.생성 모델: 데이터 그 자체의 본질적인 규칙, 즉 데이터의 분포(Distribution)를 학습합니다. 세상에 존재하지 않지만 진짜 같은 샘플을 만들어내는 '예술가'의 영역입니다.수학적으로 표현하면, 판별 모델..
-
PEFT의 핵심: "기존 모델은 얼리고, 추가 레이어만 학습한다"AI 2026. 4. 18. 02:00
LLM을 튜닝할 때 가장 큰 벽은 '메모리'입니다. 이미지에서 빨간색으로 적어주신 것처럼, 모델 사이즈가 너무 커서 물리적인 GPU 한계에 부딪히기 때문이죠. 이를 해결하는 PEFT의 철학은 명확합니다. "원본은 건드리지 말고, 필요한 것만 덧붙여라." PEFT(Parameter-Efficient Fine-Tuning)의 대원칙: Pretrained Model은 'Frozen'우리가 산 70B, 175B 파라미터 모델은 이미 훌륭한 '기초 지식'을 가지고 있습니다. 이걸 다 고치려다가는 배보다 배꼽이 더 커집니다.기존 레이어: 그대로 둡니다. (Frozen/동결)추가 레이어: 그 위에 혹은 사이에 아주 작은 '추가 레이어'를 붙입니다. (Add-on)학습 범위: 오직 이 '추가된 레이어'의 가중치만 업데..
-
NLP 성능 평가: 단순 수치를 넘어 '맥락'을 읽는 법AI 2026. 4. 18. 00:19
모델을 잘 만드는 것만큼이나 중요한 것이 "어떻게 평가하느냐"입니다. 단순히 Accuracy(정확도)가 99%라고 해서 좋은 모델일까요? 암 진단 모델에서 1%의 환자를 놓친다면 그 모델은 실패한 것입니다. 오늘은 필기 노트를 바탕으로 분류 지표의 기초부터 최신 NLP 평가 기법까지 싹 다 정리해 보겠습니다. 1. 모든 평가의 뿌리: 오차 행렬 (Confusion Matrix)모든 성능 지표는 모델의 예측과 실제 정답의 관계를 나타내는 이 4가지 케이스에서 시작됩니다.구분실제 True (Positive)실제 False (Negative)예측 TrueTP (진짜 양성)FP (가짜 양성 - 1종 오류)예측 FalseFN (가짜 음성 - 2종 오류)TN (진짜 음성) 2. 정밀도(Precision) vs ..
-
딥러닝의 본질: 고차원 노이즈에서 저차원의 '알맹이'를 찾는 여정AI 2026. 4. 5. 15:20
딥러닝 모델의 복잡한 수식 뒤에 숨겨진 철학은 명확합니다. "세상의 복잡한 겉모습(Raw Data)을 다 걷어내고, 그 안에 숨겨진 본질적인 특징(Essence)들만 모아놓은 가상의 지도(Latent Space)를 그리는 것"입니다. 이 과정을 단계별로 자세히 파헤쳐 보겠습니다. 왜 '압축'이 필요한가? (고차원의 저주와 노이즈)우리가 보는 디지털 데이터(이미지, 텍스트, 음성)는 차원이 너무 높습니다. 1024x1024 해상도의 사진 한 장은 약 100만 개의 숫자(픽셀)로 이루어져 있죠. 하지만 그 100만 개의 숫자 중 정말로 "이것은 고양이이다"를 결정하는 숫자는 극히 일부입니다.대부분의 픽셀은 배경의 먼지, 조명의 각도, 카메라의 노이즈 같은 '불필요한 정보'입니다. 딥러닝은 이 거대한 데이터..