Evaluation Task vs Evaluation Set

Evaluation Task는 DATUMO Eval의 핵심 평가 프레임워크입니다.
준비된 Dataset을 활용하여 다양한 AI 모델의 성능을 체계적으로 평가하고, 결과를 시각적으로 비교 분석할 수 있습니다.

이 가이드에서는 Task 생성부터 평가 실행까지의 전체 워크플로우를 단계별로 안내합니다.

Task 및 Eval Set 생성
평가 지표(Metric) 설정
모델 선택 및 평가 실행
결과 확인으로의 연결

Run Your First Evaluation

Basic Evaluation 전체 Flow는 아래와 같습니다.
이 가이드에서는 Step 1~2에서 Task와 Eval Set을 생성하고 평가를 실행하는 과정을 설명합니다.

Task 생성
Eval Set 생성 및 평가 실행
평가 결과 확인 (대시보드)
(Advanced) 평가 결과 수정
(Advanced) BEIR 리더보드 추가하여 확인하는 방법
- *특정 데이터셋은 평가 대시보드에서 BEIR와 judgement 평가 결과를 같이 확인할 수 잇습니다.

Step 1: Task 생성하기

① Task 생성 시작

「+ New Task」 버튼 클릭
Basic Evaluation Task 선택

[upload image file: task_creation_start.png]

② Task 기본 정보 입력

Task Name: 평가 Task 이름 (예: Customer Service Model Comparison)
Description: Task 설명 (선택사항)
Create Task 버튼 클릭

[upload image file: task_basic_info.png]

Step 2: Eval Set 생성 시작

① Add Evaluation Set 버튼 클릭

Task 생성 완료 후 「Add Evaluation Set」 버튼 클릭
평가 설정 모달이 열립니다

[upload image file: add_evaluation_set_button.png]

② 평가 설정 모달 진입

하나의 모달에서 모든 평가 설정을 연속으로 진행
4단계 순서: Metric → Model → Name → Response Set

[upload image file: evaluation_modal_overview.png]

Step 3: Eval Set 평가 설정

① Select Evaluation Metric

평가에 사용할 Metric을 선택합니다:

Metric 카테고리 선택: 한 번 선택하면 동일 카테고리의 Metric만 선택 가능
Available Metrics: Quality, Relevance, Accuracy, Fluency, Safety 등
선택한 Metric에 따라 호환되는 모델과 Response Set이 결정됨

[upload image file: select_evaluation_metric.png]

② Select Evaluation Model

선택한 Metric을 지원하는 평가 모델을 선택합니다:

호환 모델만 표시: 선택한 Metric과 호환되는 모델만 노출
Judge Model 선택: GPT-4o, Claude 3.5 등
비호환 모델 선택 시 오류 발생 가능성 안내

[upload image file: select_evaluation_model.png]

③ Set Name

평가를 식별할 이름을 설정합니다:

Evaluation Name: 평가 세트 이름 입력
Description: 평가 목적이나 특징 설명 (선택사항)

[upload image file: set_evaluation_name.png]

④ Select Response Set

선택한 Metric과 호환되는 Response Set을 선택합니다:

호환 Response Set만 표시: 선택한 Metric 타입과 맞는 형식만 노출
Selected: 0: 현재 선택된 Response Set 개수 표시
Format 확인: Metric 유형에 따라 필요한 데이터 형식 및 내용 상이

[upload image file: select_response_set.png]

⑤ Complete 실행

모든 설정 완료 후:

설정 검토: 선택한 Metric, Model, Name, Response Set 확인
Complete 버튼 클릭
평가 자동 시작: 즉시 평가가 시작됩니다
Eval Set Detail Page로 자동 이동: 평가 진행 상황을 실시간 확인

[upload image file: evaluation_complete_setup.png]

Step 4: 평가 완료 및 결과 확인

① 평가 완료 알림

평가 완료 시 알림 표시
전체 완료률 및 소요 시간 확인
성공/실패 항목 통계

[upload image file: evaluation_completed.png]

② 결과 대시보드로 이동

View Results 버튼 클릭하여 결과 대시보드로 이동
평가 결과 요약 정보 확인
Category별, Metric별 성능 시각화

[upload image file: results_dashboard_preview.png]

💡 평가 진행 팁

1. Dataset 품질 검토

평가 전 반드시 Context와 Query 품질 확인
중복 질문이나 부정확한 Context 제거
평가 목적에 맞는 질문 구성 확인

2. Metric 설정 최적화

평가 목적에 맞는 Metric 선택
호환성 확인: 선택한 Metric과 모델, Response Set 호환성
Judge Model 성능과 비용 고려

3. 효율적인 평가 실행

소규모 테스트 먼저 진행 후 전체 평가
배치 크기 조정으로 안정성과 속도 균형
오류 발생 시 즉시 원인 파악 및 해결

⚠️ 주의사항

Metric 제한: 한 번 선택한 카테고리와 동일한 카테고리의 Metric만 추가 가능
호환성 확인: 선택한 Metric, Model, Response Set 간 호환성 필수
API 한도: 사용하는 모델의 API 한도 사전 확인
평가 시간: 대량 데이터 평가 시 충분한 시간 확보
중단 시 복구: 평가 중단 시에도 진행된 결과는 보존됨

❓ 자주 묻는 질문 (FAQ)

Q. 평가 중에 중단하면 어떻게 되나요?

A. 평가 도중 중단해도 이미 완료된 결과는 보존됩니다.
중단 시점부터 다시 시작할 수 있으며, 대시보드에서 부분 결과도 확인 가능합니다.

Q. 다른 카테고리의 Metric을 함께 사용할 수 있나요?

A. 한 번 Metric 카테고리를 선택하면 동일 카테고리의 Metric만 추가 가능합니다. 다른 카테고리를 사용하려면 새로운 Evaluation Set을 생성해야 합니다.

Q. 평가 결과를 수정할 수 있나요?

A. 평가 완료 후 개별 결과를 수동으로 수정할 수 있습니다. 자동 평가에서 놓친 부분이나 판단이 애매한 경우 사람이 직접 보정할 수 있습니다.

전체 Basic Evaluation Flow

이 문서는 Step 1~2까지만 다룹니다.
전체 Flow는 아래와 같습니다:

Task 생성
Eval Set 생성 및 평가 실행
평가 결과 확인
(Advanced) 평가 결과 수정
(Advanced) BEIR 리더보드 활용

Step 1: Task 생성하기​

① Task 생성 시작​

② Task 기본 정보 입력​

Step 2: Eval Set 생성 시작​

① Add Evaluation Set 버튼 클릭​

② 평가 설정 모달 진입​

Step 3: Eval Set 평가 설정​

① Select Evaluation Metric​

② Select Evaluation Model​

③ Set Name​

④ Select Response Set​

⑤ Complete 실행​

Step 4: 평가 완료 및 결과 확인​

① 평가 완료 알림​

② 결과 대시보드로 이동​

💡 평가 진행 팁​

1. Dataset 품질 검토​

2. Metric 설정 최적화​

3. 효율적인 평가 실행​

⚠️ 주의사항​

❓ 자주 묻는 질문 (FAQ)​

Q. 평가 중에 중단하면 어떻게 되나요?​

Q. 다른 카테고리의 Metric을 함께 사용할 수 있나요?​

Q. 평가 결과를 수정할 수 있나요?​