-
인공지능은 어떻게 '중요한 정보'를 골라낼까? (기울기와 가중치의 비밀)AI 2026. 2. 3. 14:22
인공지능 모델을 학습시킬 때, 우리는 어떤 피처(데이터)가 중요한지 알려주지 않습니다. 하지만 학습이 끝나고 나면 모델은 귀신같이 중요한 피처에 높은 가중치를 부여하고 있죠. 컴퓨터 내부에서는 어떤 일이 벌어지는 걸까요?
단순한 비유부터 실제 수학 계산까지, 파헤쳐 보겠습니다.
1. 직관적 이해: "언덕에서 공 굴리기"
모델 학습 초기는 마치 짙은 안개 속 가파른 '오차라는 산' 절벽에 서 있는 것과 같습니다.
- 기울기(Gradient)가 크다: "여기서 한 발자국만 움직여도 낭떠러지 아래(오차 감소)로 확 떨어진다!"는 신호입니다.
- 가중치를 수정한다: 컴퓨터는 큰 기울기를 보고 가중치를 확 밀어버립니다. 이것이 언덕 아래로 빠르게 내려가는 과정입니다.
- 평지에 도착: 정답에 가까워질수록 경사는 완만해집니다. 이제 가중치를 조금 바꿔봐야 오차가 크게 변하지 않습니다. 기울기가 0에 가까워지면 학습이 완성됩니다.
핵심: 가중치를 늘려서 오차가 줄어든 것이 아니라, 기울기가 컸기 때문에 가중치를 많이 바꾼 것입니다.
컴퓨터 내부의 숫자 계산 (Step-by-Step)
실제 숫자를 가지고 컴퓨터가 어떻게 '면적'이 '우체통 색깔'보다 중요함을 깨닫는지 스텝별로 따라가 봅시다.
0단계: 환경 설정
- 진짜 정답 (Target): 10억
- 피처 1 (면적 $x_1$): 10 (중요한 값)
- 피처 2 (우체통 $x_2$): 1 (무의미한 값)
- 초기 가중치 ($w$): 모두 0.5 / 학습률 ($\eta$): 0.01
1단계: 예측 및 오차 계산 (Forward)
컴퓨터가 현재 가중치로 집값을 계산합니다.
- 예측값: $(10 \times 0.5) + (1 \times 0.5) = \mathbf{5.5}$
- 오차(Error): $5.5 - 10 = \mathbf{-4.5}$ (현재 4.5만큼 부족함)
2단계: [심화] 기울기 공식 유도 (Chain Rule)
여기서 왜 '입력값($x$)'**이 중요한지 수학적 근거가 나옵니다. 손실 함수 $L = \frac{1}{2}(\hat{y} - y)^2$를 가중치 $w$로 미분하면 연쇄 법칙에 의해 다음과 같은 공식이 탄생합니다.
$$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial \hat{y}} \times \frac{\partial \hat{y}}{\partial w} = (\text{예측} - \text{정답}) \times \text{입력값}(x)$$즉, 기울기(Gradient) = 오차 $\times$ 입력값 입니다.
[Step A] 겉미분: 오차를 예측값으로 미분하기 ($\color{blue}{\frac{\partial L}{\partial \hat{y}}}$)
오차 함수 $L = \frac{1}{2}(\hat{y} - y)^2$에서 $(\hat{y} - y)$를 하나의 덩어리로 보고 미분합니다.
- 공식: $\frac{d}{dx} \frac{1}{2}x^2 = x$
- 결과: $\color{blue}{(\hat{y} - y)}$
- 의미: 이것은 단순히 '현재 발생한 오차 그 자체'를 의미합니다.
[Step B] 속미분: 예측값을 가중치로 미분하기 ($\color{blue}{\frac{\partial \hat{y}}{\partial w}}$)
예측 함수 $\hat{y} = w \cdot x$를 $w$에 대해 미분합니다.
- 공식: $\frac{d}{dw} (w \cdot x) = x$ (여기서 $x$는 상수 취급)
- 결과: $\color{blue}{x}$
- 의미: 가중치를 바꿀 때 예측값이 변하는 정도는 바로 '입력 데이터($x$)'에 의해 결정됩니다.
3단계: 피처별 기울기 계산 (Backpropagation)
위 공식에 실제 숫자를 대입해 봅니다.
- 면적 기울기 ($g_1$): $-4.5 \times 10 = \mathbf{-45}$
- 우체통 기울기 ($g_2$): $-4.5 \times 1 = \mathbf{-4.5}$
똑같은 오차 상황이지만, 입력값($x$)이 큰 면적 쪽의 기울기가 10배나 더 뻥튀기됩니다! 컴퓨터는 "이쪽 경사가 엄청나네? 여기가 범인이다!"라고 판단합니다.
4단계: 가중치 업데이트
이제 실제 가중치를 수정합니다 ($w_{new} = w_{old} - \eta \cdot g$).
- 면적 가중치 ($w_1$): $0.5 - (0.01 \times -45) = \mathbf{0.95}$ (+0.45 변화)
- 우체통 가중치 ($w_2$): $0.5 - (0.01 \times -4.5) = \mathbf{0.545}$ (+0.045 변화)
최종 결과 비교: 인공지능의 판단
구분 초기 가중치 1회 학습 후 변화량 (에너지) 면적 ($w_1$) 0.5 0.95 +0.45 (강력 업데이트) 우체통 ($w_2$) 0.5 0.545 +0.045 (미미함) 요약 및 결론
인공지능은 "면적이 중요하다"는 개념을 이해하는 것이 아닙니다.
- 수학적 미분 공식에 의해 입력값($x$)이 큰 피처는 기울기를 증폭시킵니다.
- 컴퓨터는 기울기가 큰 쪽의 가중치를 더 세게(많이) 바꿉니다.
- 이 과정이 반복되면 결국 정답을 결정짓는 피처들이 높은 가중치를 선점하게 됩니다.
결국 기울기는 가중치를 얼마나 '세게' 바꿀지 결정하는 핸들의 강도이며, 이 핸들이 0이 되는 지점을 찾는 것이 바로 머신러닝 최적화의 끝입니다!
'AI' 카테고리의 다른 글
CNN 필터는 어떻게 '스스로' 진화하는가? (역전파와 두 가지 가중치) (0) 2026.02.04 이미지 인식의 핵심, CNN(합성곱 신경망) (0) 2026.02.03 왜 데이터를 훈련, 검증, 테스트 3개로 나눌까? (feat. 정보 누설과 일반화) (0) 2026.02.02 왜 모든 데이터에 Dense Layer를 쓰면 안 될까? (CNN vs RNN의 탄생 배경) (0) 2026.02.02 모델의 일반화 성능을 높이는 치트키: 데이터 증강(Data Augmentation) (0) 2026.02.02