본문으로 건너뛰기

Evaluation Types

Overview

이 문서는 생성형 AI 평가를 구성하는 주요 평가 유형을 설명합니다.
Datumo Eval은 Judgment Eval, Quantitative Eval, Human Eval 기능을 통해
아래 평가 유형을 다양한 방식으로 실행할 수 있습니다.


Evaluation Framework

생성형 AI 모델을 평가할 때에는 모델이 무엇을 잘하고, 어떤 위험을 가지고 있으며, 실제 서비스 목적에 얼마나 적합한지를 종합적으로 살펴볼 필요가 있습니다. 일반적으로 생성형 AI 평가는 안전성, 사실성, 응답 품질이라는 세 가지 주요 관점으로 나뉘며, 이 세 범주는 대부분의 서비스 시나리오를 포괄하는 기본 구조를 이룹니다.

첫째, 모델이 유해한 표현을 생성하거나 정책을 위반하지 않는지 확인하는 Safety 평가가 필요합니다.
둘째, 문서 기반 QA나 RAG 시스템처럼 ‘정답’ 또는 ‘근거’가 존재하는 상황에서는 모델의 답변이 실제 정보와 얼마나 정확히 일치하는지를 측정하는 Factuality 평가가 중요합니다.
셋째, 요약·재작성·상담 대화처럼 정답이 명확하지 않은 생성 작업에서는 문장의 명확성, 논리성, 톤앤매너 등을 판단하는 Response Quality 평가가 요구됩니다.

Datumo Eval은 이러한 평가 유형을 Judgment Eval, Quantitative Eval, Human Eval 기능을 통해 다양한 방식으로 수행할 수 있습니다. 이를 활용하면 개별 모델의 강점과 취약점을 균형 있게 파악하고, 서비스 운영 과정에서 필요한 검증 기준을 체계적으로 마련할 수 있습니다.


Safety Evaluation (안전성 평가)

안전성(Safety)은 모델이 정책을 위반하거나 유해한 표현, 민감 정보를 포함한 위험한 응답을 생성하지 않도록 관리하는 평가 영역입니다. 특히 공개형 챗봇이나 고객 응대 서비스는 다양한 입력이 들어올 가능성이 큽니다. 이런 환경에서는 사람이 직접 공격 전략을 설계하는 방식만으로는 잠재적인 취약점을 충분히 파악하기 어렵습니다. 이러한 상황에서는 자동 레드티밍(Auto Red-Teaming)을 활용해 대량의 공격 전략과 시나리오를 자동 생성하여, 사람이 설계하기 힘든 다양한 패턴까지 폭넓게 탐지할 수 있습니다.

반대로 특정 프롬프트나 개별 상황만 빠르게 검증하고 싶을 때에는, 대규모 공격 생성 없이 단건 Safety 평가를 활용해 개별적으로 안전성을 살펴볼 수 있습니다. 이 방식은 Datumo Safety의 기본 지표(유해성, 정책 위반, 개인정보 노출 등)를 즉시 계산하며, 필요한 경우 Safety Rubric 기반 Judgment Eval을 활용해 정책 기준에 따른 정성적 판단도 함께 수행할 수 있습니다.

또한 자동 공격이나 단건 평가에서는 안전해 보이더라도, 실제 사용자와의 대화 맥락에서는 예기치 않은 위험 응답이 발생할 수 있습니다. 이러한 맥락 기반 위험을 /ko/tutorials/evaluation/human-eval을 활용해 사람이 직접 모델과 대화하며 사전에 정의된 안전성 기준(validation rule)에 따라 최종 검증을 수행할 수 있습니다. 이를 통해 자동화된 평가에서 놓칠 수 있는 실제 서비스 상황의 위험까지 종합적으로 점검할 수 있습니다.

주요 활용 사례:

  • 고객 상담 챗봇의 부적절한 응답 방지
  • 교육용 AI의 유해 콘텐츠 차단
  • 금융 상담 봇의 개인정보 보호
  • 의료 정보 제공 시 잘못된 조언 예방

Factuality Evaluation (사실성 평가)

사실성(Factuality)은 모델의 응답이 주어진 문서(Context) 또는 Ground Truth(정답 데이터)와 얼마나 정확히 일치하는지를 확인하는 평가 영역입니다. 문서 기반 QA 서비스나 RAG 시스템은 특히 사실성 평가가 중요하며, 모델이 제공한 근거를 얼마나 충실히 반영했는지(근거 일치성, Faithfulness), 검색된 문서가 적절했는지(Context Relevancy), 답변이 사실적으로 정확한지(Correctness)를 개념적으로 점검합니다.

Datumo Eval에서는 이러한 사실성 평가를 위해 Evaluation Task에 질문·문서·응답 데이터셋을 업로드하면 정량적 사실성 지표(Faithfulness, Correctness, Relevancy 등)를 자동 계산하여 전체 성능을 빠르게 파악할 수 있습니다. Ground Truth가 제공되는 경우에는 RAG Checker를 사용해 기대답변과 모델 응답을 문장 단위로 비교하고, 근거 불일치나 환각 발생 지점을 명확하게 확인할 수 있습니다.

정량 평가만으로는 오류 원인을 파악하기 어려운 경우, Judgment Eval의 RAG Rubric을 사용해 LLM Judge가 답변의 근거 활용 방식, 오류 유형, 사실성 결함 등을 정성적으로 분석할 수 있습니다. 이를 통해 검색기(Retriever)와 생성기(Generator)의 문제를 각각 파악하고, RAG 파이프라인의 개선 방향을 도출하는 데 도움을 줍니다.

주요 활용 사례:

  • 기업 내부 문서 기반 QA 시스템 정확도 검증
  • 법률/규정 문서 기반 상담 서비스의 답변 신뢰도 평가
  • 제품 매뉴얼 기반 고객 지원 챗봇의 정보 정확성 확인
  • 학술 자료 검색 시스템의 인용 정확도 측정

Response Quality Evaluation (응답 품질 평가)

사실성 평가가 정답과의 일치도를 측정한다면, 응답 품질(Response Quality) 평가는 모델이 생성한 텍스트가 명확하고, 논리적이며, 사용 목적과 도메인에 적합한지를 평가하는 영역입니다. 이는 "정답이 존재하지 않는" 유형의 작업(요약, 재작성, 상담 멘트 등)에서 특히 중요하며, 모델이 생성한 문장의 자연스러움, 완성도, 논리 구조, 어조·스타일 등을 개념적으로 확인합니다.

응답 품질을 평가할 때에는 Judgment Eval을 활용해 도메인에 맞는 커스텀 Rubric을 정의하고, LLM Judge가 해당 기준에 따라 응답의 품질을 정성적으로 평가할 수 있습니다. 보다 엄밀한 품질 검증이 필요한 경우에는 Human Eval을 통해 사람이 직접 모델 응답을 검토하여 최종 결과의 적합성을 판단할 수 있습니다.

요약이나 변환처럼 비교 대상이 있는 작업에서는 Quantitative Eval을 사용해 BLEU, ROUGE 등 텍스트 유사도 기반의 지표로 두 응답 간 차이를 수치화할 수 있습니다. 이러한 정성·정량 평가의 조합은 프롬프트 최적화, 모델 버전 비교, 서비스 품질 관리 등에 다양하게 활용됩니다.

주요 활용 사례:

  • 마케팅 카피 생성 AI의 브랜드 톤앤매너 일관성 평가
  • 기술 문서 요약 시스템의 핵심 정보 보존도 측정
  • 고객 응대 스크립트 생성 AI의 공감도와 전문성 평가
  • 번역 시스템의 자연스러움과 의미 보존 검증

평가 유형 요약

Datumo Eval의 평가 유형(Safety, Factuality, Response Quality)을 이해했다면
다음 세션에서 각 평가 기능의 구조와 동작 방식을 이어서 확인하세요.

튜토리얼 기반 실습이 필요하다면 아래 가이드에서 단계별로 확인할 수 있습니다: