Evaluation Pipeline
Overview
이 문서는 Datumo Eval이 평가를 구성하는 핵심 개념들 간의 구조적 관계를 설명합니다. 사용 절차(UI 흐름)는 Tutorials 및 Guides 문서에서 별도로 다룹니다.
평가 파이프라인
Datumo Eval의 평가 프로세스는 모델 성능을 일관된 기준으로 측정하고 비교하기 위한 구조화된 흐름입니다.
핵심 구성 요소는 Dataset, Evaluation Task, Evaluation Set, Evaluation Result이며,
각 요소는 독립적으로 존재하지만 평가 파이프라인에서 유기적으로 연결됩니다.
Datumo Eval은 정성 평가(LLM Judge), 정량 평가(Metric 기반), 규칙 기반 평가, 자동 Red-Teaming 등 다양한 평가 Framework를 지원합니다. 본 문서의 파이프라인은 이러한 다양한 방식 중 가장 대표적인 Core Evaluation 구조를 기준으로 설명하며, 특정 Framework에서는 일부 구성 요소가 변형될 수 있습니다.