Evaluation

Datumo Eval은 AI Judge 기반 자동 평가부터, 사람이 직접 검토하는 정성 평가, 표준 벤치마크를 활용한 정량 평가까지
다양한 목적에 맞는 평가 방법을 제공합니다. LLM 응답의 품질을 다양한 방식으로 평가해보세요.

사전 정의된 평가 지표로 모델을 활용해 응답 품질을 자동으로 채점합니다.

평가자가 루브릭을 바탕으로 직접 응답의 적절성을 검토합니다.

표준 벤치마크와 NLP 메트릭을 기반으로 모델 성능을 수치화합니다.

각 평가 방식은 목적에 따라 다음과 같은 기능들을 제공합니다:

저지 평가 Judgment Evaluation:
LLM-AI Judge 모델을 활용해 정해진 루브릭에 따라 모델의 응답 품질을 자동으로 평가하는 기능입니다.
Evaluation Task, RAGAs Task, RAG Checker, Auto Red-Teaming 기능이 포함됩니다.
정성 평가 Human Evaluation:
사람이 직접 루브릭을 기준으로 응답의 적절성·창의성·맥락 이해 등을 평가하는 기능입니다.
Manual Evaluation과 Interactive Evaluation 기능이 포함됩니다.
정량 평가 Quantitative Evaluation:
표준 벤치마크 데이터셋과 NLP 기반 메트릭을 활용해 모델 성능을 객관적으로 비교·분석하는 기능입니다.
Harness Task와 Reference-based Evaluation 기능이 포함됩니다.

각 방식별 튜토리얼에서 실습을 통해 단계별 사용법을 확인할 수 있습니다.