-
이미지 인식의 핵심: Inductive Bias, Locality, 그리고 특징 추출의 상관관계AI 2026. 2. 20. 00:46
컴퓨터 비전(CV) 모델을 공부하다 보면 반드시 마주치는 질문이 있습니다. "왜 이미지 데이터에는 MLP(다층 퍼셉트론)보다 CNN이 압도적으로 유리할까?" 그 해답은 단순히 '연산 방식'에 있지 않습니다. 모델이 데이터를 바라보는 '현명한 고정관념', 즉 Inductive Bias(귀납적 편향)에 그 비밀이 숨겨져 있습니다. 오늘은 CNN이 이미지를 처리하기 위해 설계된 핵심 메커니즘인 Locality와 Translation Invariance, 그리고 특징 추출의 과정을 파헤쳐 보겠습니다..
Inductive Bias (귀납적 편향): 모델의 "현명한 고정관념"
학습 알고리즘이 훈련 데이터 외에, 처음 보는 데이터에 대해서도 정답을 낼 수 있도록 미리 가지고 있는 사전 가정(Assumptions)을 의미합니다.
- 왜 필요한가? 딥러닝 모델이 아무런 가이드 없이 무한한 가능성 속에서 정답을 찾으려면 엄청난 양의 데이터와 시간이 필요합니다. "이미지 데이터라면 아마 이럴 거야!"라는 지름길(Bias)을 미리 깔아주는 것이죠.
- 핵심: CNN은 이미지의 특성에 맞는 아주 강력한 Locality와 Translation 에 관한 Inductive Bias를 가지고 설계되었습니다.
Locality (국부성): 인접한 픽셀들의 상관관계
"인접한 것들끼리 모여 특징을 형성한다"는 개념이 바로 Locality입니다.
- 공간적 특징 (Spatial Correlation): 이미지는 픽셀 하나로는 의미를 갖지 못합니다. 코를 나타내는 픽셀은 그 주변 픽셀들과 함께 있을 때만 '코의 형태'를 이룹니다.
- CNN의 전략: CNN은 필터(Kernel)를 통해 이미지 전체가 아닌 특정 국소 영역만 훑습니다. 이것은 "서로 멀리 떨어진 픽셀보다 가까이 있는 픽셀끼리 더 밀접한 관계가 있다"는 Locality Bias를 모델 구조에 직접 주입한 것입니다.
Translation: Equivariance와 Invariance의 조화
이미지 속 고양이가 어디에 있든 '고양이'라는 본질은 변하지 않습니다. CNN은 이를 두 단계의 메커니즘으로 해결합니다.
① Translation Equivariance (평행이동 등변성): "특징을 놓치지 않는 추적"
합성곱 계층(Conv Layer)의 특징입니다. 고양이가 오른쪽으로 10픽셀 이동하면, 필터를 거쳐 나온 특징 맵(Feature Map) 내의 활성화 위치도 똑같이 오른쪽으로 10픽셀 이동합니다.
- 핵심 기술: Weight Sharing(가중치 공유). 하나의 필터가 이미지를 슬라이딩하며 검사하기 때문에, 사물이 어디로 가든 똑같은 필터가 반응하며 위치 정보를 유지합니다.
② Translation Invariance (이동 불변성): "위치가 바뀌어도 본질은 같다"
모델 후반부와 분류기(Classifier)의 목표입니다. 고양이가 왼쪽 위에 있든 오른쪽 아래에 있든 최종 결과는 똑같이 "고양이"여야 합니다.
- 핵심 기술: Pooling & GAP(Global Average Pooling). 특징 맵의 구체적인 좌표 정보를 뭉뚱그려 제거함으로써, "어디에 있느냐"가 아닌 "그 특징이 존재하느냐"에 집중하게 만듭니다.
"Equivariance는 특징을 찾는 과정이고, Invariance는 찾은 특징을 결론으로 굳히는 과정이다
Receptive Field (수용 영역): 시야를 넓혀가는 과정
Locality라는 개념을 물리적인 연산으로 구현한 것이 바로 Receptive Field입니다.
- 작은 시야에서 큰 시야로: Low-level: 좁은 수용 영역을 통해 인접 픽셀 간의 관계(점, 선, 면)를 봅니다.
- High-level: 층이 깊어질수록 수용 영역이 넓어져, 흩어져 있던 부분 특징들을 모아 전체적인 형상(얼굴, 자동차 등)을 파악합니다.
- 연결 고리: 결국 Locality를 유지하면서 수용 영역을 계층적으로 쌓아가는 과정이 CNN의 핵심입니다.
특징 추출 (Feature Extraction): 유용한 벡터의 형성
이 모든 과정의 종착지는 "유용한 벡터(Representation)"를 뽑아내는 것입니다.
- 데이터의 압축: 수만 개의 픽셀 데이터를 그대로 쓰는 것이 아니라, Locality를 통해 파악한 핵심 정보들만 남깁니다.
- 유용한 벡터: 추출된 벡터는 이미지의 '에센스'입니다.
- 처음에는 단순한 선의 방향 벡터에서 시작하지만,
- 나중에는 "눈의 위치", "피부의 질감" 등을 표현하는 고차원적인 유용한 벡터가 됩니다.
- 결론: 이 벡터를 분류기(Classifier)에 던져주기만 하면, 모델은 매우 쉽게 "이건 고양이야!"라고 판단할 수 있게 됩니다.

최종 목적지: Latent Space (잠재 공간)
이 모든 과정의 종착지는 원본 이미지를 Latent Space(잠재 공간)상의 좌표(벡터), 즉 Latent Vector로 변환하는 것입니다.
- 의미의 압축: 수만 개의 픽셀(고차원 데이터)에서 불필요한 노이즈를 제거하고, 본질적인 특징(에센스)만 추출하여 저차원의 공간으로 투영합니다. 이 과정에서 GAP(Global Average Pooling)과 같은 연산이 결정적인 역할을 하며, 3차원의 특징 맵을 하나의 정제된 잠재 벡터로 응축시킵니다.
- 잠재 벡터: 우리가 실제로 얻는 것은 숫자 뭉치인 잠재 벡터뿐입니다. 하지만 이 벡터는 가상의 지도인 잠재 공간 위의 한 점(좌표)이 됩니다. 이 공간 안에서는 비슷한 특징을 가진 이미지들이 서로 가까운 좌표에 모이게 되며, 우리는 이 점들을 통해 모델이 그린 무형의 지도를 짐작할 수 있습니다.이 공간 안에서는 비슷한 특징을 가진 이미지들이 서로 가까이 위치합니다.
- 결론: 잘 설계된 Inductive Bias 덕분에 모델은 데이터를 헤매지 않고 Latent Space라는 정교한 지도를 그려낼 수 있습니다. 분류기(Classifier)는 복잡한 원본 이미지를 볼 필요 없이, GAP 연산을 통해 뽑아낸 잠재 벡터(좌표)의 위치만 보고도 "이것은 고양이다"라고 매우 쉽게 판단하게 됩니다.
한마디로 정의하면, "데이터의 겉모습(픽셀)을 다 걷어내고, 그 안에 숨겨진 본질적인 특징(Feature)들만 모아놓은 가상의 추상 공간"입니다.
1. 왜 '잠재(Latent)'인가요?
데이터의 겉면(예: 사진의 수만 개 픽셀 값)에는 직접적으로 "이건 고양이야", "이건 귀가 뾰족해"라는 정보가 써져 있지 않습니다. 하지만 그 데이터 안에 '잠재적으로' 숨어 있는 특징들을 인공지능이 추출해서 숫자로 표현하기 때문에 '잠재 공간'이라고 부릅니다.
우리가 연산의 결과로 실제로 손에 쥐는 것은 Latent Vector라는 숫자 뭉치뿐입니다. '잠재 공간(Latent Space)'은 이 벡터들이 찍히는 가상의 지도이며, 우리는 수많은 잠재 벡터(점)를 찍어보며 이 지도의 모양을 비로소 짐작할 수 있게 됩니다.2. 핵심 개념: 압축과 추상화
- 고차원 데이터 (원본): 1024x1024 해상도의 사진은 약 100만 개의 차원을 가집니다. 컴퓨터 입장에서는 너무 복잡하고 노이즈가 많습니다.
- 저차원 잠재 벡터(결과): AI(인코더)는 이 사진을 딱 512개 혹은 1024개의 핵심 숫자로 줄입니다. 이 숫자들은 각각 '눈의 크기', '털의 색깔', '코의 모양' 같은 본질적인 의미를 담고 있는 좌표가 됩니다.
3. 잠재 공간의 마법: 의미론적 유사성
잠재 공간의 가장 놀라운 점은 "비슷한 것끼리는 가까이 모인다"는 것입니다.
- 수만 장의 강아지 사진을 잠재 공간에 점으로 찍으면, 비슷한 종이나 비슷한 포즈를 취한 강아지들끼리 특정 구역에 뭉칩니다.
- 결론: 이 가상의 지도 위에서 점과 점 사이의 거리는 곧 데이터의 유사도를 의미하게 됩니다. 잘 설계된 Inductive Bias 덕분에 모델은 데이터를 헤매지 않고 Latent Space라는 정교한 지도를 그려낼 수 있습니다.
결국, CNN이 이미지에 강한 이유는 "이미지는 공간적 연관성이 있고, 위치가 바뀌어도 그 특징은 유지된다"라는 인간의 직관을 모델 구조(Architecture) 자체에 녹여냈기 때문입니다. 이 벡터를 분류기(Classifier)에 던져주기만 하면, 모델은 매우 쉽게 "이건 고양이야!"라고 판단할 수 있게 됩니다.
최근에는 이런 사전 가정(Bias)을 최소화한 Vision Transformer(ViT)가 거대 데이터를 기반으로 주목받고 있지만, 데이터가 제한적인 상황에서 CNN의 효율적인 설계 철학은 여전히 컴퓨터 비전의 근간을 이루고 있습니다.
'AI' 카테고리의 다른 글
토큰화(Tokenization)의 진화: 단어에서 서브워드까지 (1) 2026.02.20 텍스트 데이터의 특징과 자연어 처리 파이프라인 완벽 이해 (0) 2026.02.20 세그멘테이션 성능 평가의 핵심: IoU, mIoU, Boundary IoU (0) 2026.02.19 Segmentation부터 DSLR의 이해 (0) 2026.02.10 사전학습(Pre-training)의 핵심 (0) 2026.02.06