Evaluation
Datumo Eval은 AI Judge 기반 자동 평가부터, 사람이 직접 검토하는 정성 평가, 표준 벤치마크를 활용한 정량 평가까지
다양한 목적에 맞는 평가 방법을 제공합니다. LLM 응답의 품질을 다양한 방식으로 평가해보세요.
각 평가 방식은 목적에 따라 다음과 같은 기능들을 제공합니다:
-
저지 평가 Judgment Evaluation:
LLM-AI Judge 모델을 활용해 정해진 루브릭에 따라 모델의 응답 품질을 자동으로 평가하는 기능입니다.
Evaluation Task, RAGAs Task, RAG Checker, Auto Red-Teaming 기능이 포함됩니다. -
정성 평가 Human Evaluation:
사람이 직접 루브릭을 기준으로 응답의 적절성·창의성·맥락 이해 등을 평가하는 기능입니다.
Manual Evaluation과 Interactive Evaluation 기능이 포함됩니다. -
정량 평가 Quantitative Evaluation:
표준 벤치마크 데이터셋과 NLP 기반 메트릭을 활용해 모델 성능을 객관적으로 비교·분석하는 기능입니다.
Harness Task와 Reference-based Evaluation 기능이 포함됩니다.
각 방식별 튜토리얼에서 실습을 통해 단계별 사용법을 확인할 수 있습니다.