본문으로 건너뛰기

Task

overview

Task는 특정 Dataset을 어떤 기준(Metric·Judge)으로 평가할지에 대한 설정을 모아두는 단위입니다.
평가 기준을 Task에 미리 정의해두면, 이후 Task에서 생성되는 Eval Set들이 동일한 기준을 사용해 평가를 실행할 수 있습니다.

Task는 Datumo Eval에서 하나의 평가 방식을 정의하는 단위입니다.
Task에는 어떤 Dataset을 사용할지, 어떤 Metric과 Judge 설정을 기준으로 평가할지를 지정할 수 있으며,
사용자는 이 설정을 바탕으로 여러 Eval Set을 생성해 모델 간 성능을 비교하거나 변화 흐름을 추적할 수 있습니다.
이러한 구조에서 Task는 특정 평가 목적을 조직적으로 관리하는 평가 시나리오의 역할을 합니다.


Task의 개념과 역할

Task는 Datumo Eval에서 평가를 운영하고 관리하기 위한 상위 단위로,
특정 주제나 목적을 기준으로 여러 Eval Set을 묶어두는 역할을 합니다.
사용자는 Task를 만들어 평가 목적이나 분석 범주를 정의하고,
그 Task 안에서 다양한 조합의 Dataset과 Metric, 평가 모델을 선택해 여러 Eval Set을 생성할 수 있습니다.
이로 인해 Task는 단순한 설정 모음이 아니라,
특정 평가 목적을 중심으로 여러 실행 결과를 구조적으로 관리하는 평가 시나리오로 활용됩니다.


Task 구성 요소

Task는 특정 평가 목적 아래에서 여러 Eval Set을 생성하고 결과를 모아볼 수 있도록 구성된 상위 단위입니다.
Task 화면에서는 생성된 Eval Set들의 실행 현황과 평가 결과를 확인할 수 있으며,
필요할 경우 새로운 Eval Set을 만들어 추가 평가를 수행할 수 있습니다.

Task 내부 구성은 자연스럽게 세 가지 흐름으로 나뉩니다.
먼저 Dashboard에서는 해당 Task에 포함된 전체 평가 현황과 결과 개요를 확인할 수 있습니다.
그다음 Eval Set 목록을 통해 각 실행 결과를 개별적으로 조회하고 관리할 수 있으며,
Table View에서는 선택한 Eval Set의 Query 단위 응답과 점수를 상세하게 확인해 단일 실행의 세부 분석에 활용할 수 있습니다.

이러한 구성 덕분에 Task는 여러 평가 실행을 하나의 목적 아래에서 정리하고,
요약 → 목록 → 세부 결과로 이어지는 흐름을 통해 평가를 체계적으로 관리하는 조직적 단위로 작동합니다.


Task와 Eval Set의 관계

Task는 Datumo Eval에서 여러 평가 실행(Eval Set)을 하나의 목적 아래에서 묶어 관리하는 상위 단위입니다.
실제 평가 실행은 Task 안에서 생성되는 Eval Set에서 이루어지며,
사용자는 Eval Set을 생성할 때 필요한 Dataset, Metric, Judge 모델 등을 직접 선택해 평가 구성을 완성합니다.

Task는 평가 기준을 강제하거나 자동으로 적용하지는 않지만,
여러 Eval Set을 동일한 목적 아래에 모아두어 모델 버전 변화나 설정 조정의 영향을 비교할 수 있도록 해줍니다.

이 구조에서 Task는 평가 결과를 조직적으로 관리하는 컨테이너 역할을 하고,
Eval Set은 각 실행에 대한 구체적인 결과를 담는 단위로 기능합니다.