본문으로 건너뛰기

Eval Set

Overview

Eval Set은 Datumo Eval에서 한 번의 평가 실행 결과를 저장하는 단위입니다.
평가는 Task 내에서 생성되며, 사용자는 Task에서 새로운 Eval Set을 만들고 필요한 설정을 선택한 뒤 평가를 실행합니다.
각 Eval Set은 실행 당시의 모델 응답과 점수, Reasoning 등을 모두 포함한 독립적인 평가 묶음이고,
하나의 Task 아래 여러 Eval Set을 생성해 성능을 비교하거나 변화 흐름을 분석할 수 있습니다.


Eval Set의 구성

Eval Set에는 평가 실행에 사용된 정보와 해당 실행의 결과가 함께 저장됩니다.
실행 정보에는 선택한 Target Model과 연결된 Dataset, Task에 설정된 평가 기준이 포함됩니다.
평가가 완료되면 모델이 생성한 응답과 이를 기반으로 산출된 점수, Judge Reasoning 등이 Eval Set에 기록되며,
대시보드에서는 특정 Eval Set을 기준으로 결과를 조회하거나 필터링해 확인할 수 있습니다.


Eval Set 생성 방식

Eval Set은 사용자가 Task에서 ‘New Eval Set’ 기능을 통해 평가를 생성할 때 만들어집니다.
이 과정에서 사용자에게 Metric, Dataset, 그리고 평가에 사용할 모델을 선택하는 화면이 제공되며,
Metric에서 요구하는 입력 컬럼을 충족하는 Dataset만 선택할 수 있도록 자동으로 필터링됩니다.
Eval Set을 생성하고 저장하면 해당 설정이 즉시 적용되어 평가가 자동으로 실행되며,
평가 과정에서 생성된 모든 응답과 점수는 새로 생성된 Eval Set에 순차적으로 저장됩니다.


상태 관리

Eval Set은 실행 과정에 따라 Pending, Running(Evaluating), Completed, Failed 등의 상태를 갖게 됩니다.
이 상태 정보는 여러 평가가 동시에 진행되는 상황에서 전체 흐름을 파악하는 데 유용하며,
실패한 경우에는 오류 지점을 빠르게 확인할 수 있습니다.


Eval Set의 활용

Eval Set은 Datumo Eval에서 성능 비교와 분석의 기준 단위로 사용됩니다.
하나의 Task 아래 생성된 여러 Eval Set을 살펴보면 모델 버전 간의 성능 변화나
프롬프트·Judge 설정 변경이 결과에 미친 영향을 손쉽게 파악할 수 있습니다.
동일 모델을 반복 평가할 경우에는 시간 경과에 따른 안정성이나 품질 변동을 추적하는 데도 활용됩니다.

※ 참고로, 대시보드의 테이블 뷰는 서로 다른 모델 간 비교에 최적화되어 있어 동일한 Target Model·Dataset·Metric 조합에서 생성된 Eval Set들은 세부 분석 화면에서 개별적으로 확인하는 편이 더 명확합니다.


결과 확인 및 재실행

평가가 완료된 Eval Set은 Dashboard의 상세 화면과 Table View에서 Query 단위의 응답, 점수, Reasoning 등을 확인할 수 있습니다.
필요한 경우 Judge 평가만 다시 수행하거나 실패한 항목만 재평가하는 방식의 부분 재실행을 사용할 수 있으며,
동일한 설정으로 새로운 Eval Set을 생성해 전체 평가를 다시 수행할 수도 있습니다.
모든 결과는 CSV 또는 JSON 파일로 내려받아 외부 분석이나 보고서 작성에 활용할 수 있습니다.