Quantitative Evaluation Overview
객관적이고 측정 가능한 지표를 통해 AI 모델의 성능을 수치적으로 평가하는 방식입니다. 일관되고 재현 가능한 평가 결과를 제공하여 모델 간 객관적 비교가 가능합니다.
📄️ Harness Task
Harness Task
📄️ Reference-based
Reference-based
1. Harness Task
표준화된 벤치마크 테스트를 통해 AI 모델의 성능을 측정하고, 리더보드를 통해 다양한 모델들의 성능을 비교할 수 있는 시스템입니다.
제공 데이터셋 및 태스크
- HRM8K : 수학 문제 해결 능력 평가
- KMMLU : 한국어 다영역 이해력 평가 (Korean Multi-domain Multi-task Language Understanding)
- KOBEST: 한국어 자연어 이해 벤치마크 (Korean Benchmark Suite for Natural Language Understanding)
- 기타 표준 벤치마크 데이터셋들의 subset을 선별하여 제공
2. Reference-based (NLP 기반 평가)
정답 또는 참조 답안(Ground Truth)과 AI 모델의 응답을 비교하여 유사성을 측정하는 NLP 기반 자동 평가 시스템입니다.
주요 평가 메트릭
- BLEU : 번역 품질 평가를 위한 n-gram 기반 유사도 측정
- ROUGE : 요약 품질 평가를 위한 텍스트 중복도 측정
- METEOR : 의미적 유사성을 고려한 기계번역 평가
- TER : Translation Edit Rate, 편집 거리 기반 번역 오류율 측정 *점수가 0과 가까울 수록 좋음
- BERT : BERT 임베딩을 활용한 의미적 유사도 측정