전체 글
-
Ensemble LearningAI 2026. 1. 27. 08:57
데이터 사이언스 경진대회인 캐글(Kaggle) 상위권 솔루션을 보면 빠지지 않고 등장하는 단어가 있습니다. 바로 '앙상블(Ensemble)'입니다. 딥러닝이 비정형 데이터(이미지, 영상)를 지배한다면, 정형 데이터(표 데이터)의 왕은 여전히 앙상블 기법입니다. 앙상블 학습은 여러 개의 머신러닝 모델(Weak Learner)을 결합하여, 하나의 모델만 사용할 때보다 더 정확하고 신뢰성 높은 예측 결과를 도출하는 기법입니다.한 명의 천재(강력한 단일 모델)가 모든 문제를 해결할 수도 있지만, 평범한 여러 사람(약한 모델)이 모여 투표하거나 의견을 종합했을 때 더 안정적이고 뛰어난 결과를 내는 '집단 지성'의 원리를 머신러닝에 적용한 것입니다. 오늘은 여러 모델을 조합하여 강력한 성능을 내는 앙상블 학습의 핵..
-
데이터 분석(EDA)부터 머신러닝 전처리까지: Standard Workflow 정리AI 2026. 1. 26. 01:34
데이터 사이언스 프로젝트를 진행할 때, 데이터를 로드하는 순간부터 모델링에 들어가기 직전까지 거쳐야 하는 필수 과정들을 정리했습니다.이 글에서는 Pandas를 이용한 데이터 핸들링, Seaborn을 이용한 시각화, 그리고 Scikit-learn을 이용한 머신러닝 전처리(Preprocessing)의 표준 패턴을 다룹니다. 데이터 분석 프로세스는 보통 다음 순서를 따릅니다.Load & Info: 데이터를 불러오고 타입과 결측치를 확인한다.EDA (Visualization): 시각화를 통해 데이터의 패턴과 이상치를 탐색한다.Preprocessing:결측치 처리 (Imputation)인코딩 (Encoding)데이터 분할 (Train/Test Split)스케일링 (Scaling) 도구 준비본격적인 분석에 앞서,..
-
Model과 Gradient DescentAI 2026. 1. 25. 03:46
모델(Model)이란 무엇인가?요즘 개발자들 사이에서 가장 핫한 키워드는 단연 'AI'와 '모델'입니다. 흔히 "모델을 학습시킨다"라고 하는데, 여기서 모델은 도대체 무엇일까요?개발자 관점에서 모델은 '특정 정보를 입력을 받아 연산을 거쳐 그정보에 따라 원하는 값을 예측값을 출력하는 함수'로 정의할 수 있습니다. 중고등학교 수학 시간에 지겹도록 봤던 $y = f(x)$가 바로 모델의 본질입니다.오늘은 가장 기초적인 선형 회귀(Linear Regression) 모델을 직접 구현해보며, 기계가 데이터를 통해 어떻게 '학습'을 하는지 그 원리를 파헤쳐 보겠습니다. 우리는 오늘 다음과 같은 문제를 해결하는 모델을 만들어볼 것입니다."맥북의 사용 연수($x$)를 입력받아, 중고 가격($y$)을 예측해보자!"가장 ..
-
선택 안됨 데이터 전처리: One-Hot Encoding & BinningAI 2026. 1. 23. 09:18
머신러닝 모델의 성능은 '데이터를 모델이 얼마나 잘 이해할 수 있는 형태로 전달하느냐'에 달려 있습니다. 오늘은 가장 대표적인 전처리 기법인 범주형 데이터 처리(One-Hot Encoding)와 연속형 데이터 처리(Binning)를 심도 있게 다뤄보겠습니다.원-핫 인코딩 (One-Hot Encoding)❓ 개념 및 필요성머신러닝 알고리즘은 기본적으로 수치 데이터를 계산합니다. 하지만 '서울, 부산' 같은 범주형(Categorical) 데이터는 크기 비교가 불가능합니다. 이를 단순히 1, 2로 바꾸면 모델은 "부산(2)이 서울(1)보다 크다"라는 잘못된 관계를 학습합니다.원-핫 인코딩은 각 카테고리를 독립된 열로 만들고, 해당하는 데이터에만 1(Hot)을, 나머지는 0(Cold)을 부여하여 데이터 간의 ..
-
데이터 전처리: Missing Data와 Duplicate DataAI 2026. 1. 23. 09:01
이터 분석과 머신러닝 프로젝트에서 가장 먼저 마주하는 난관은 '지저분한 데이터'입니다. "Garbage In, Garbage Out"이라는 말처럼, 품질 낮은 데이터는 아무리 좋은 알고리즘을 써도 나쁜 결과를 낳습니다. 오늘은 전처리의 핵심인 결측치(Missing Data)와 중복 데이터(Duplicate Data) 처리 원리를 정리해 보겠습니다. Missing Data현실의 데이터는 수집 과정에서의 누락, 시스템 오류 등으로 인해 비어 있는 경우가 많습니다. 이를 어떻게 다루느냐에 따라 모델의 성능이 극명하게 갈립니다.💡 결측치 발생 유형 (참고 지식)단순히 "비어 있다"를 넘어, 왜 비어 있는지 이해하면 더 정교한 처리가 가능합니다.MCAR (완전 무작위 결측): 결측이 발생한 원인이 다른 변수와..
-
데이터 전처리: Outlier 탐지와 처리: Z-Score부터 IQR까지AI 2026. 1. 23. 06:14
데이터 분석과 머신러닝 모델의 성능을 결정짓는 것은 결국 '데이터의 품질'입니다. 그중에서도 이상치(Outlier)는 모델을 왜곡시키고 분석 결과를 편향되게 만드는 주범이죠. 오늘은 이상치의 개념부터 대표적인 탐지 방법인 Z-Score와 IQR의 원리, 그리고 파이썬 구현법까지 자세히 알아보겠습니다. Outlier란 무엇인가?이상치란 대부분의 값들이 모여 있는 범위에서 크게 벗어난, 극단적으로 크거나 작은 값을 의미합니다.무역(Trade) 데이터를 예로 들어봅시다. 대부분의 거래 금액이 100~1,000만 원 사이인데, 갑자기 1,000억 원짜리 거래 데이터가 하나 섞여 있다고 가정해 보겠습니다.스케일링의 왜곡: Min-Max Scaling을 적용하면 1,000억 원이 1이 되고, 나머지 일반적인 데이터..
-
데이터 전처리: NormalizationAI 2026. 1. 23. 03:24
머신러닝 모델을 만들 때, 서로 다른 단위(예: 수입 건수 vs 수출 금액)를 가진 컬럼들을 그대로 넣으면 모델은 숫자가 큰 컬럼이 더 중요하다고 착각하게 됩니다. 이를 해결하기 위해 데이터의 '체급'을 맞추는 과정이 바로 정규화(Normalization) 입니다.가장 대표적인 세 가지 기법인 Starndardication, Min-Max 스케일링, 로그 변환에 대해 깊이 있게 알아보겠습니다. 표준화 (Standardization, Z-score Scaling)표준화는 데이터의 평균을 0, 분산을 1로 만들어 모든 피처가 동일한 '표준적인 흩어짐'을 갖게 하는 기법입니다. 이 공식($Z = \frac{X - \mu}{\sigma}$)을 제대로 이해하기 위해 통계적 지표들을 하나씩 뜯어봅시다분산(Varia..
-
L1, L2 RegularizationAI 2026. 1. 21. 10:57
L1 RegularizationL1 Regularization은 머신러닝 모델의 과적합(Overfitting)을 방지하기 위해 손실 함수(Loss Function)에 가중치의 절대값 합을 추가하는 기법입니다. 흔히 Lasso(Least Absolute Shrinkage and Selection Operator) 회귀라 합니다. 수학적 정의모델을 학습시킬 때 최소화해야 할 전체 손실 함수는 다음과 같이 구성됩니다.$$Cost = Loss(y, \hat{y}) + \lambda \sum_{j=1}^{n} |w_j|$$$Loss(y, \hat{y})$: 모델의 예측값과 실제값 사이의 오차 (예: MSE)$\lambda$ (Lambda): 정규화 강도를 조절하는 하이퍼파라미터입니다. 이 값이 클수록 가중치에 대..