NLP 데이터 증강

AI 2026. 3. 6. 03:16

NLP(자연어 처리) 모델의 성능은 데이터의 양과 질에 크게 의존합니다. 하지만 양질의 텍스트 데이터를 수집하는 것은 비용이 많이 들고 어렵죠. 이럴 때 유용하게 사용할 수 있는 NLP 데이터 증강(Data Augmentation) 기법들을 정리해 보겠습니다.

가장 직관적인 방법으로, 문장 내 특정 단어를 유사한 의미의 다른 단어로 바꾸는 방식입니다.

시소러스란 단어의 동의어나 유의어를 체계적으로 구축한 사전을 말합니다.

WordNet: 가장 대표적인 영어 유의어 데이터베이스입니다. 단순 트리 구조가 아닌 유향 비순환 그래프(DAG) 구조를 가져, 한 노드가 여러 상위 노드를 가질 수 있는 복잡한 관계를 표현합니다.
한국어 시소러스: * KorLex: 부산대학교에서 구축한 한국어 워드넷.
- KWN (Korean WordNet): 카이스트에서 구축한 한국어 워드넷.
장단점: 사람이 직접 검수했기에 정확도가 높지만, 신조어나 전문 용어 대응이 어렵다는 한계가 있습니다.

사전 대신 기계학습으로 사전 훈련된(Pre-trained) 벡터 공간을 활용합니다.

원리: Word2Vec, GloVe, FastText 등을 통해 학습된 임베딩 공간에서 특정 단어와 코사인 유사도(Cosine Similarity)가 높은 단어를 선택해 교체합니다.
구현: gensim 라이브러리의 most_similar() 함수를 사용하면 매우 쉽게 구현할 수 있습니다.
장점: 사람이 정의하지 않은 방대한 단어 간의 관계를 활용할 수 있어 시소러스 기반보다 유연합니다.

최근 가장 많이 쓰이는 고도화된 방법입니다.

방법: BERT와 같은 마스크 언어 모델(MLM)을 활용합니다. 문장의 일부 단어를 [MASK]로 치환하고, 모델이 문맥상 가장 적절한 후보 단어를 예측하게 하여 그 단어로 교체합니다.
특징: 앞뒤 문맥에 따라 단어를 선택하므로, 다의어 처리에 매우 탁월합니다.

번역 모델을 활용해 데이터의 다양성을 확보하는 강력한 기법입니다.

프로세스: 1. Source 언어(예: 한국어) 문장을 Target 언어(예: 영어)로 번역합니다.
2. 번역된 Target 문장을 다시 Source 언어(한국어)로 재번역합니다.
효과: 이 과정에서 문법적 구조가 바뀌거나 유의어로 대체되면서, 의미는 유지되되 표현이 다른 새로운 'Synthetic Source Sentence(인공 문장)'가 생성됩니다.
데이터 효율성:
- 일반 Back Translation: 데이터 수에 무관하게 전반적인 성능 향상에 효과적입니다.
- Sampling 기법 활용: 생성 시 무작위성을 부여하는 Sampling 기법을 쓸 경우, 데이터가 약 64만 개 이상일 때 성능 향상 폭이 극대화된다는 연구 결과가 있습니다.

단순하면서도 매우 효과적인 4가지 텍스트 증강 기법을 묶어 EDA라고 부릅니다.

기법	설명
SR (Synonym Replacement)	문장에서 임의의 단어를 선택해 동의어로 교체 (위의 어휘 대체와 동일)
RI (Random Insertion)	문장 내 불용어가 아닌 단어의 동의어를 선택해 문장 내 임의의 위치에 삽입
RS (Random Swap)	문장 내 두 단어의 위치를 무작위로 바꿈
RD (Random Deletion)	문장 내 단어를 일정 확률로 삭제

주의사항: RS나 RD는 문법을 파괴할 수 있지만, 모델이 문장의 핵심 단어(Keyword)에 집중하게 만드는 노이즈 효과를 주어 강건함(Robustness)을 높여줍니다.

의도적으로 오타나 노이즈를 섞어 모델의 내성을 키우는 방법입니다.

오타 노이즈 (Keyboard Typos): 키보드 배열상 가까운 위치의 문자로 교체하거나 오타를 유도합니다.
공백 치환 (Blank Substitution): * 문장 일부를 공백이나 특수 토큰으로 바꿉니다.
- 이는 BERT, GPT-2, XLNet 등 현대 언어 모델의 핵심 학습 기법인 마스크 언어 모델링(MLM)과 궤를 같이 합니다.
- 특히 BERT는 양방향 문맥을 파악하기 위해 이 MLM 방식을 채택하여 NLP의 패러다임을 바꾼 대표적인 모델입니다.

BERT: 진짜 양방향(Bi-directional) 언어 모델의 탄생 (0)	2026.03.10
GPT(Generative Pre-Training Transformer) (0)	2026.03.10
[NLP 아키텍처 연대기] 통계에서 트랜스포머까지: 언어 이해의 여정 (1)	2026.03.02
Transformer (0)	2026.02.24
Seq2Seq의 한계를 넘어서: Attention 메커니즘 (0)	2026.02.23

AI Foundry AI Foundry