Evaluation Framework
DATUMO Eval 개요
DATUMO Eval은 생성형 AI 서비스의 품질과 안전성을 체계적으로 검증하기 위한 종합 평가 플랫폼입니다.
다양한 평가 방식과 전문화된 기능을 통해 AI 모델의 성능을 다각도로 측정하고 개선할 수 있습니다.
PART 1: 평가 방식
DATUMO Eval은 크게 세 가지 평가 방식으로 구성됩니다:
저지평가 (Judge Evaluation)
AI Judge를 활용한 자동화된 품질 평가
→ 사람 수준의 판단력과 대규모 자동화를 동시에 확보
→ 현재 싱글턴(Single-turn) 기반 평가 지원, 멀티턴(Multi-turn) 평가는 지원 예정
정성평가 (Human Evaluation)
사람의 판단력을 활용한 주관적 품질 검증
→ 뉘앙스, 창의성, 적절성 등 수치로 측정하기 어려운 요소 평가
정량평가 (Quantitative Evaluation)
객관적 지표 기반의 수치적 성능 측정
→ 재현 가능하고 표준화된 벤치마크를 통한 모델 간 비교
각 방식은 독립적으로 사용하거나 상호 보완적으로 결합하여 신뢰성 높은 평가가 가능합니다.
PART 2: 평가 기능 (Evaluation Features)
아래는 DATUMO Eval에서 제공하는 구체적인 평가 기능들입니다.
각 기능은 특정 평가 방식과 목적에 최적화되어 있습니다.
1. 저지평가 (Judge Evaluation)
AI Judge 모델을 활용하여 생성형 AI의 응답 품질과 안정성을 자동으로 평가하는 방식입니다.
사람의 판단을 모방하면서도 대규모 자동화가 가능한 것이 특징입니다.
1-1) Evaluation Task
평가용 질문(Query)에 대한 서비스의 응답(Response)을 기반으로 평가를 수행하는
가장 범용적인 평가 프레임워크입니다.
대부분의 서비스 유형에 적용 가능하며, 다음과 같은 주요 평가 항목들로 구성됩니다:
주요 평가 영역:
- Safety 평가: 생성형 AI 서비스가 "인가되지 않은 출력(편향성 발언 등)"을 유도하는 공격성 프롬프트에 얼마나 안전하게 대응하는지를 평가합니다.
- RAG Quality 평가: RAG(Retrieval-Augmented Generation) 시스템이 문서 검색을 기반으로 생성한 응답에 대해 정보 활용 적절성을 평가합니다.
세부 기능:
- Evaluation Task 관리: Task 단위로 평가 프로세스를 생성하고 실행
- Evaluation Set 관리: 평가 데이터셋을 체계적으로 관리하며, Set별 평가 중지/재시작 가능
- 평가 대시보드: 전체 평가 결과를 시각적으로 확인하고 Task 간 비교 분석
- 세부 결과 분석: 질문별, 항목별 상세 성능 결과 확인 및 개선점 도출
1-2) RAGAs Task
RAGAs(Retrieval-Augmented Generation Assessment) 메트릭을 활용한 자동 평가 기능입니다.
주요 특징:
- RAG 시스템의 검색 품질 및 생성 품질을 표준화된 지표로 측정
- 검색된 문맥(Context)과 생성된 응답 간의 관계를 다차원적으로 평가
- 자동화된 수치 평가로 빠른 성능 파악 가능
평가 지표:
-
Answer Correctness : 생성된 응답이 기준 정답(Ground Truth)과 얼마나 정확하게 일치하는지를 평가합니다. 사실성(Factuality)과 의미적 유사도(Semantic Similarity)를 함께 고려합니다.
-
Response Relevancy : 질문과의 관련성을 평가합니다. 응답이 불완전하거나 불필요한 정보를 포함할 경우 점수가 낮아집니다. 점수는 0~1 범위로, 1에 가까울수록 우수합니다.
-
Semantic Similarity : 생성된 응답이 기준 정답과 의미적으로 얼마나 유사한지를 측정합니다. 의미적 일치도를 수치로 표현하는 지표입니다.
-
Context Entity Recall : Ground Truth에 포함된 엔터티(개체)가 검색된 문맥(Context)에 얼마나 잘 포함되어 있는지를 기준으로 재현율(Recall)을 계산합니다.
-
LLM Context Precision With GT : 모델이 선택한 문맥 중 관련 있는 항목이 얼마나 상위에 위치하는지를 평가합니다. 관련 정보의 정밀도(Precision)를 평균적으로 측정합니다.
-
LLM Context Recall : 주어진 질문과 기준 정답을 바탕으로, 검색된 문맥이 얼마나 충분히 관련 정보를 포함하고 있는지를 평가합니다.
-
Factual Correctness : 생성된 응답의 사실적 정확성을 평가하는 지표입니다. 응답 내 주장(Claim)을 분해하고, 참조 문서와 비교하여 각 주장의 진위 여부를 판단합니다.
-
Faithfulness : 응답이 검색된 문맥(Context)과 얼마나 사실적으로 일관성이 있는지를 측정합니다. 값이 1에 가까울수록 문맥에 충실한 응답임을 의미합니다.
-
Noise Sensitivity : 관련 있거나 무관한 문서를 사용할 때 시스템이 잘못된 응답을 생성하는 빈도를 측정합니다. 값이 낮을수록 노이즈에 강한(안정적인) 성능을 의미합니다.
-
Answer Accuracy : 질문에 대한 모델 응답이 기준 정답과 얼마나 일치하는지를 평가합니다. "LLM-as-a-judge" 평가 방식을 사용하여 채점합니다.
-
Context Relevance : 검색된 문맥(Context)이 사용자의 질문과 얼마나 밀접하게 관련되어 있는지를 평가합니다. 관련성이 높을수록 더 나은 점수를 받습니다.
-
Response Groundedness : 모델의 응답이 제공된 문맥에 얼마나 근거하고 있는지를 평가합니다. 응답 내 각 주장이 문맥 내에서 근거를 찾을 수 있을수록 높은 점수를 부여합니다.
1-3) RAG Checker
평가용 질문에 대한 ER(Expected Response)을 기반으로 RAG 시스템의 응답을 평가합니다. 모범 답안 역할을 하는 ER 내 주장들이 검색된 문서(Context) 및 RAG 시스템의 응답 내 포함되어 있는지 여부를 측정하여 RAG 시스템의 Generator 모듈 및 Retriever 모듈의 성능을 각각 평가합니다.
평가 메커니즘:
- Expected Response 내 주장(Claim)을 추출하고 분해
- 검색된 문서(Context)에 해당 Claim이 포함되어 있는지 검증 → Retriever 성능 평가
- RAG 시스템 응답에 해당 Claim이 반영되어 있는지 검증 → Generator 성능 평가
1-4) Auto Red-Teaming
공격 시나리오 라이브러리를 활용하여 자동으로 적대적 프롬프트를 생성하고, AI 모델의 안전성과 취약점을 검증하는 시스템입니다.
주요 특징:
- 다양한 공격 전략(Jailbreak, Prompt Injection 등)을 자동으로 적용
- 반복적인 적대적 테스트를 통한 모델 취약점 탐지
- Safety Evaluation으로는 발견하기 어려운 은밀한 리스크 식별
2. 정성평가 (Human Evaluation)
AI의 응답을 사람이 직접 검토하고 평가하는 방식으로, 수치로 측정하기 어려운 요소를 판단합니다.
2-1) Manual Evaluation
사전 정의된 평가 기준(Rubric)을 바탕으로 평가자가 체계적으로 AI 응답을 평가하는 기능입니다.
주요 특징:
- 명확한 평가 루브릭을 통한 일관성 확보
- 복수 평가자 간 결과 비교 및 신뢰도 분석
- 세부 항목별 점수화 및 코멘트 작성 가능
- 정성적 판단이 필요한 복잡한 응답 품질 평가에 최적화
2-2) Interactive Evaluation
AI 모델과 실시간 대화하며 즉각적으로 응답 품질을 평가하는 인터랙티브 시스템입니다.
주요 특징:
- 질의 입력 후 즉시 응답 확인 및 평가
- Good/Bad 등의 간편한 즉시 피드백
- Ground Truth(GT) 작성 및 개선안 제안 가능
- 신속한 프로토타입 테스트 및 탐색적 평가에 유용
3. 정량평가 (Quantitative Evaluation)
객관적이고 재현 가능한 수치 지표를 통해 모델 성능을 측정하는 방식입니다.
표준화된 메트릭을 사용하여 모델 간 객관적 비교와 벤치마킹이 가능합니다.
3-1) Harness Task
표준화된 벤치마크 데이터셋을 활용하여 AI 모델의 성능을 측정하고 리더보드를 통해 비교하는 시스템입니다.
지원 데이터셋:
- HRM8K: 수학적 추론 및 문제 해결 능력 평가
- KMMLU: 한국어 다영역 지식 이해력 평가 (Korean Multi-domain Multi-task Language Understanding)
- KOBEST: 한국어 자연어 이해 벤치마크 (Korean Benchmark Suite for Natural Language Understanding)
- 기타 글로벌 표준 벤치마크의 선별된 서브셋
주요 특징:
- 학계 및 산업계에서 널리 인정되는 표준 벤치마크 지원
- 자동화된 평가로 대규모 테스트 가능
- 리더보드를 통한 모델 간 객관적 순위 비교
- 지속적인 벤치마크 업데이트 및 확장
3-2) Reference-based Evaluation (NLP 메트릭)
정답 또는 참조 답안(Ground Truth)과 모델 응답을 비교하여 유사도를 측정하는 자동 평가 시스템입니다.
지원 메트릭:
- BLEU: N-gram 기반 유사도 측정, 기계번역 품질 평가에 주로 사용
- ROUGE: 텍스트 중복도 측정, 요약 품질 평가의 표준 메트릭
- METEOR: 의미적 유사성을 고려한 기계번역 평가 지표
- TER (Translation Edit Rate): 편집 거리 기반 번역 오류율 측정 (*0에 가까울수록 우수)
- BERTScore: BERT 임베딩을 활용한 의미적 유사도 측정
전체 평가 기능 요약
| 평가 기능 | 분류 | 주요 목적 | 평가 대상 |
|---|---|---|---|
| Evaluation Task | 저지평가 | 범용 AI 응답 품질 평가 | Safety, RAG Quality |
| RAGAs Task | 저지평가 | RAG 시스템 자동 평가 | 검색 품질, 생성 품질 |
| RAG Checker | 저지평가 | Claim-level RAG 정밀 평가 | Factuality, 정보 정확성 |
| Auto Red-Teaming | 저지평가 | 자동화된 보안 취약점 검증 | 안전성, 견고성 |
| Manual Evaluation | 정성평가 | 루브릭 기반 체계적 인간 평가 | 품질, 적절성, 창의성 |
| Interactive Evaluation | 정성평가 | 실시간 대화형 즉시 평가 | 프로토타입, 탐색적 테스트 |
| Harness Task | 정량평가 | 표준 벤치마크 성능 측정 | 지식, 추론, 언어 이해 |
| Reference-based | 정량평가 | NLP 메트릭 기반 유사도 평가 | 번역, 요약, 생성 품질 |