NLP 성능 평가: 단순 수치를 넘어 '맥락'을 읽는 법

AI 2026. 4. 18. 00:19

모델을 잘 만드는 것만큼이나 중요한 것이 "어떻게 평가하느냐"입니다. 단순히 Accuracy(정확도)가 99%라고 해서 좋은 모델일까요? 암 진단 모델에서 1%의 환자를 놓친다면 그 모델은 실패한 것입니다. 오늘은 필기 노트를 바탕으로 분류 지표의 기초부터 최신 NLP 평가 기법까지 싹 다 정리해 보겠습니다.

1. 모든 평가의 뿌리: 오차 행렬 (Confusion Matrix)

모든 성능 지표는 모델의 예측과 실제 정답의 관계를 나타내는 이 4가지 케이스에서 시작됩니다.

구분	실제 True (Positive)	실제 False (Negative)
예측 True	TP (진짜 양성)	FP (가짜 양성 - 1종 오류)
예측 False	FN (가짜 음성 - 2종 오류)	TN (진짜 음성)

2. 정밀도(Precision) vs 재현율(Recall): 무엇이 더 치명적인가?

상황에 따라 우리가 감수해야 할 '오답'의 종류가 다릅니다.

① 재현율 (Recall / Sensitivity)

공식:
$$Recall = \frac{TP}{TP + FN}$$
핵심: "실제 정답인 것들 중에서 모델이 얼마나 많이 맞췄는가?"
치명적인 상황 (의료/보안): 노트에 적힌 암 진단 예시가 대표적입니다. 실제 암 환자를 정상(FN)이라고 진단하면 생명이 위험해집니다. 즉, 실제를 아니라고 하는 것이 더 위험할 때 재현율을 극도로 높여야 합니다.

② 정밀도 (Precision)

공식:
$$Precision = \frac{TP}{TP + FP}$$
핵심: "모델이 맞다고 한 것들 중에 실제로 맞은 비율은 얼마인가?"
치명적인 상황 (스팸 메일/번역): 중요한 메일을 스팸(FP)으로 분류해버리면 업무에 차질이 생깁니다. 즉, 오답을 정답이라고 내뱉는 것이 더 위험할 때 정밀도를 챙겨야 합니다.

3. Many-to-Many 태스크에서의 심화 분석

입력(X)과 출력(Y)이 모두 시퀀스인 번역과 생성 모델에서는 지표의 의미가 더 깊어집니다.

✅ 번역(Translation)에서 정밀도(Precision)가 중요한 이유

번역은 '언어1을 언어2로 정확히 치환'하는 작업입니다.

오역의 치명성: 번역 모델이 문장을 아예 번역하지 못하는 것(Recall 하락)보다, 전혀 다른 뜻으로 오역하는 것(Precision 하락)이 정보 전달 측면에서 훨씬 위험합니다.
따라서 번역 모델은 '자신이 뱉은 단어가 얼마나 정확한가'를 측정하는 정밀도 기반의 평가를 지향합니다.

✅ 생성(Generation)에서 재현율(Recall)이 중요한 이유

생성은 '질문에 대해 맥락에 맞는 일관성 있는 대답'을 내놓는 작업입니다.

맥락의 포괄성: 생성 모델은 질문자가 의도한 핵심 키워드와 주제를 얼마나 많이 포함하고 있는지가 중요합니다. 생각을 구체화하고 일관성 있는 반응을 하기 위해서는 정답지가 가진 정보들을 최대한 많이 반영(Recall)해야 합니다.
단순히 단어가 정확한지를 넘어, 주제(Topic)와 표제어(Lemma)가 얼마나 풍부하게 포함되었는지가 생성 모델의 품질을 결정합니다.

4. NLP 전용 지표: BLEU vs ROUGE

🟦 BLEU (Bilingual Evaluation Understudy)

기반: Precision (정밀도)
평가 방식: 생성된 문장의 단어(N-gram)들이 정답 문장에 얼마나 포함되어 있는지를 측정합니다.
용도: 주로 기계 번역 성능 측정에 쓰이며, '정확한 단어 비교'에 강점이 있습니다.

🟩 ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

기반: Recall (재현율)
평가 방식: 정답 문장의 단어들이 생성된 문장에 얼마나 포함되어 있는지를 측정합니다.
용도: 주로 텍스트 요약 및 생성 모델 평가에 쓰이며, '주요 내용의 포함 여부'를 중점적으로 봅니다.

5. 차세대 평가 지표 (Neural & LLM-based)

이제는 단순 단어 매칭을 넘어, 임베딩(Embedding)과 LLM을 활용한 평가가 대세입니다.

① BERTScore & BLEURT (Semantic Similarity)

단어의 텍스트가 아닌 벡터(Vector) 유사도를 측정합니다.
"덥다"와 "뜨겁다"를 비슷한 벡터로 인식하여, 통계적 매칭의 한계를 극복했습니다.

② COMET & MetricX (번역의 New Standard)

최근 구글(MetricX)과 AI 커뮤니티(COMET)에서 주도하는 기법입니다.
정답지만 보는 게 아니라 원문(Source)까지 함께 참조하여 "원문의 의미가 타겟 언어로 얼마나 잘 전달되었는지"를 신경망 모델이 직접 채점합니다. 현재 SOTA 번역 모델 평가에서 BLEU보다 훨씬 높은 신뢰도를 보입니다.

③ G-Eval & Prometheus (LLM-as-a-Judge)

GPT-5.4나 Gemini 3 같은 최상위 모델을 '채점관'으로 사용합니다.
방식: 사람이 채점 기준(Coherence, Relevance 등)을 프롬프트로 주면, LLM이 사고 과정(CoT)을 거쳐 1~5점 척도로 점수를 매깁니다.
장점: 인간의 주관적인 평가와 상관관계가 80~90% 이상으로 매우 높습니다.

태스크	권장 지표	핵심 가치
기계 번역	COMET, BLEU	오역 방지 (Precision)
문서 요약	ROUGE-L, BERTScore	핵심 정보 포함 (Recall)
대화/질의응답	G-Eval (LLM)	맥락 및 일관성
의료/보안	Recall	미탐지(FN) 최소화

실전 응용: GLUE 벤치마크 (종합 시험지)

앞서 배운 지표들이 '채점 공식'이라면, GLUE(General Language Understanding Evaluation)는 모델의 전반적인 언어 이해 능력(NLU)을 측정하기 위해 11가지 과목을 모아놓은 '종합 수능 시험지'입니다.

데이터셋	개요	주요 지표
CoLA	문법에 맞는 문장인지 판단	MCC (Confusion Matrix 응용)
MNLI / MNLI-MM	두 문장의 관계 판단 (함의, 모순, 중립)	Accuracy
MRPC	두 문장의 유사도 평가	Accuracy & F1-score
SST-2	감정 분석 (긍정/부정)	Accuracy
STS-B	두 문장의 유사도 점수화	Pearson/Spearman Corr.
QQP	두 질문의 유사도 평가	Accuracy & F1-score
QNLI	질문과 본문 문장의 함의 관계 판단	Accuracy
RTE	두 문장의 관계 판단 (함의 여부)	Accuracy
WNLI	대명사 치환 문장의 함의 관계 판단	Accuracy
Diagnostic Main	자연어 추론을 통한 문장 이해도 평가	다양한 분석 지표

정량 평가 vs 정성 평가: 그리고 그 사이의 LLM-as-a-Judge

모델 평가는 크게 숫자로 나타내는 정량 평가와 사람의 직관으로 판단하는 정성 평가로 나뉩니다.

① 정량 평가 (Quantitative Evaluation)

특징: 점수, 수치, 통계 (Accuracy, F1, BLEU, GLUE 등)
장점: 객관적이고 빠르며, 여러 모델을 동일 선상에서 비교하기 좋습니다. Pretrained model의 기초 체력을 검증할 때 필수적입니다.
단점: 점수가 높아도 실제 사용자가 느끼는 '품질'은 낮을 수 있습니다.

② 정성 평가 (Qualitative Evaluation)

특징: 유창성, 일관성, 사실 관계(Hallucination), 윤리성 검증
방법:
- 인간 평가(Human Eval): 전문가가 직접 답변의 품질을 1~5점 척도로 채점.
- Side-by-Side: 두 모델의 답변을 나란히 두고 사람이 더 나은 것을 투표(A/B Test).
- 에러 분석: 모델이 틀린 샘플만 모아 '왜' 틀렸는지 패턴 분석(예: 대명사 오지칭).
중요성: 숫자는 거짓말을 하지 않지만, 모든 진실을 말해주지도 않습니다. 실제 서비스 배포 전에는 반드시 정성 평가를 통해 '사용자 경험'을 확인해야 합니다.

③ LLM-as-a-Judge: 정성 평가의 자동화 (The Game Changer)

사람 대신 GPT-5나 Gemini 3 Pro 같은 '똑똑한 모델'을 채점관으로 세우는 방식입니다.

작동 원리: 사람이 작성한 채점 기준(Rubric)을 LLM에게 주고, 모델의 답변을 채점하게 합니다.
장점: * 확장성: 수만 개의 답변을 순식간에 정성적으로 채점할 수 있습니다.
- CoT 활용: LLM에게 "왜 이 점수를 주었는지" 사고 과정(Chain of Thought)을 쓰게 함으로써 평가의 근거를 확보합니다.
- 상관관계: 인간 평가자와의 일치도가 80~90%에 달할 정도로 신뢰도가 높습니다. (예: G-Eval, Prometheus)

왜 이 모든 것이 필요한가? (NLU vs NLG)

번역이나 생성을 잘해서 BLEU/ROUGE 점수가 높다는 것은 "문장을 유창하고 정확하게 뱉어낸다"는 뜻입니다. 하지만 GLUE는 "문장의 속뜻과 논리를 제대로 이해했는가"를 봅니다.

구분	BLEU / ROUGE (생성 능력)	GLUE (이해 및 추론 능력)	정성 평가 (실제 체감)
비유	언어 구사력 (말을 잘하나?)	지능과 논리 (말귀를 알아먹나?)	인성 및 태도 (실제 대화)
위험성	말을 번지르르하게 하지만, 속 내용은 엉터리일 수 있음 (Hallucination)	논리는 완벽하지만, 말을 어버버하게 할 수 있음	수치는 높지만 실제로는 불쾌하거나 무의미함

예시: "사과는 과일이다" vs "사과는 채소다"

번역 모델: "Apple is a fruit"를 "사과는 과일이다"라고 번역하면 BLEU 점수는 만점입니다.
논리 오류: 만약 모델이 "사과는 채소다"라고 번역해도, 문장 구조가 완벽하고 단어 몇 개만 틀렸다면 BLEU 점수는 상당히 높게 나올 수 있습니다.
GLUE(NLI)의 역할: 하지만 GLUE의 MNLI 같은 테스트를 거치면, 이 모델이 "과일"과 "채소"의 논리적 모순을 이해하지 못한다는 사실이 바로 들통납니다.

2. 엔지니어링 관점에서의 필요성

① 기초 체력 측정 (GLUE)

모델을 만들 때 가장 먼저 하는 것이 GLUE 테스트입니다. 모델이 기본적인 문법(CoLA)을 알고, 두 문장의 관계(MNLI)를 파악하는 '기초 지능'이 있는지 확인하는 단계입니다. 이 기초가 안 되어 있으면 아무리 좋은 데이터를 부어도 성능 좋은 생성 모델이 되기 어렵습니다.

Pretrained model의 성능을 평가할때도 많이씁니다.

② 특수 목적 측정 (BLEU/ROUGE)

기초 지능(GLUE)이 확인된 모델을 가지고 "번역기"나 "요약기"로 튜닝했을 때, 그 특정 목적을 얼마나 잘 수행하는지 측정하기 위해 BLEU와 ROUGE를 씁니다.

"번역 모델이 BLEU 점수가 높다고 해서 안심하면 안 됩니다. 그 모델이 정말로 문장의 논리를 이해하고 있는지 확인하려면 GLUE 벤치마크라는 '논리 검증' 절차를 반드시 거쳐야 합니다. 유창하게 말하는 것(Generation)과 정확하게 이해하는 것(Understanding)은 엄연히 다른 영역이기 때문입니다."

'AI' 카테고리의 다른 글

생성 모델(Generative Model) (0)	2026.05.02
PEFT의 핵심: "기존 모델은 얼리고, 추가 레이어만 학습한다" (1)	2026.04.18
딥러닝의 본질: 고차원 노이즈에서 저차원의 '알맹이'를 찾는 여정 (0)	2026.04.05
RNN의 Inductive Bias 파헤치기 (1)	2026.04.05
프롬프트의 시대를 넘어 '컨텍스트 엔지니어링 (1)	2026.03.20

ABOUT ME

AI Foundry AI Foundry

1. 모든 평가의 뿌리: 오차 행렬 (Confusion Matrix)

2. 정밀도(Precision) vs 재현율(Recall): 무엇이 더 치명적인가?

① 재현율 (Recall / Sensitivity)

② 정밀도 (Precision)

3. Many-to-Many 태스크에서의 심화 분석

✅ 번역(Translation)에서 정밀도(Precision)가 중요한 이유

✅ 생성(Generation)에서 재현율(Recall)이 중요한 이유

4. NLP 전용 지표: BLEU vs ROUGE

🟦 BLEU (Bilingual Evaluation Understudy)

🟩 ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

5. 차세대 평가 지표 (Neural & LLM-based)

① BERTScore & BLEURT (Semantic Similarity)

② COMET & MetricX (번역의 New Standard)

③ G-Eval & Prometheus (LLM-as-a-Judge)

실전 응용: GLUE 벤치마크 (종합 시험지)

정량 평가 vs 정성 평가: 그리고 그 사이의 LLM-as-a-Judge

① 정량 평가 (Quantitative Evaluation)

② 정성 평가 (Qualitative Evaluation)

③ LLM-as-a-Judge: 정성 평가의 자동화 (The Game Changer)

왜 이 모든 것이 필요한가? (NLU vs NLG)

예시: "사과는 과일이다" vs "사과는 채소다"

2. 엔지니어링 관점에서의 필요성

① 기초 체력 측정 (GLUE)

② 특수 목적 측정 (BLEU/ROUGE)

'AI' 카테고리의 다른 글

티스토리툴바

ABOUT ME

1. 모든 평가의 뿌리: 오차 행렬 (Confusion Matrix)

2. 정밀도(Precision) vs 재현율(Recall): 무엇이 더 치명적인가?

① 재현율 (Recall / Sensitivity)

② 정밀도 (Precision)

3. Many-to-Many 태스크에서의 심화 분석

✅ 번역(Translation)에서 정밀도(Precision)가 중요한 이유

✅ 생성(Generation)에서 재현율(Recall)이 중요한 이유

4. NLP 전용 지표: BLEU vs ROUGE

🟦 BLEU (Bilingual Evaluation Understudy)

🟩 ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

5. 차세대 평가 지표 (Neural & LLM-based)

① BERTScore & BLEURT (Semantic Similarity)

② COMET & MetricX (번역의 New Standard)

③ G-Eval & Prometheus (LLM-as-a-Judge)

실전 응용: GLUE 벤치마크 (종합 시험지)

정량 평가 vs 정성 평가: 그리고 그 사이의 LLM-as-a-Judge

① 정량 평가 (Quantitative Evaluation)

② 정성 평가 (Qualitative Evaluation)

③ LLM-as-a-Judge: 정성 평가의 자동화 (The Game Changer)

왜 이 모든 것이 필요한가? (NLU vs NLG)

예시: "사과는 과일이다" vs "사과는 채소다"

2. 엔지니어링 관점에서의 필요성

① 기초 체력 측정 (GLUE)

② 특수 목적 측정 (BLEU/ROUGE)

'AI' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바