Quick Start

Evaluation Task

이 가이드는 DATUMO Eval에서 **기본 평가(Task)**를 처음부터 끝까지 수행하는 전체 워크플로우를 빠르게 보여줍니다. 모델 연결, Dataset 준비, Task 생성, 평가 실행, 결과 분석까지의 과정을 5단계로 설명합니다.

전체 플로우

Dataset 생성 → 2) Model/Agent 추가 → 3) Evaluation Task 생성
Eval Set 생성·실행 → 5) 결과 확인

로그인/워크스페이스가 준비되어 있어야 합니다.
모델 호출 또는 LLM 기반 자동 평가를 위해 모델/API 키를 연결해야 합니다. (아래 0단계 참고)

0. 모델·에이전트 등록 (필수)

모델 응답 생성 또는 LLM 기반 자동 평가를 사용하려면 먼저 모델 또는 에이전트를 등록해야 합니다. 등록은 Management → Model Management에서 진행합니다.

Query·Response 자동 생성 또는 LLM Judge 기반 평가를 사용하려면 **최소 1개의 Judge 모델(API 키)**가 필요합니다.
이미 타겟 모델로 생성된 Dataset이 있다면 Judge 모델 하나만 등록해도 평가를 시작할 수 있습니다.

👉 자세히 보기: /setup-guide/model-management

1. Dataset 구성하기

평가는 데이터에서 시작됩니다. Dataset은 다음 두 가지 방식으로 준비할 수 있습니다.

옵션 A: AI 생성
옵션 B: 로컬파일 업로드

AI 생성 (Dataset 페이지)

새로운 평가용 데이터셋을 처음부터 만들고 싶다면 Context Dataset 페이지에서 참조문서 업로드 후 단계별로 생성할 수 있습니다.

Query 또는 Response가 비어 있어도 괜찮습니다. 이후 단계에서 모델을 연결해 자동 생성할 수 있습니다.
Query 생성 시 커스텀 파라미터를 조정하여 모델의 역할·스타일·동작을 지정할 수 있습니다.
(예: “영업점 방문 상담을 돕는 고객지원 어시스턴트로 답변해줘.”)

생성 흐름

Context 페이지 접속 후 생성 기반이 될 참조문서 로컬파일(.csv, .XLSX) 업로드
(예: Query 생성 → context set 선택, Response 생성 → query set 선택)
쿼리 생성모델 선택
Dataset 저장

👉 자세히 보기: /tutorials/dataset/

2. 평가 Task 생성

New Task를 클릭해 새 Evaluation Task를 만듭니다.
각 Task는 단일 평가 단위(예: 특정 모델 품질 측정, 두 모델 비교 등)로 관리하는 것을 권장합니다.

Task에서는 Evaluation Set을 통해 여러 Response Set의 결과를 관리할 수 있습니다.
타겟 모델의 Output(Response)이 포함된 Dataset은 Dataset-Response에서 확인할 수 있습니다.

👉 Task 생성 가이드: /tutorials/judgment-eval/eval-task/create-task

3. 평가 실행 (Evaluate)

Dataset과 Task가 준비되면 본격적으로 평가를 실행합니다.
자동 평가와 수동 평가를 함께 사용하는 것이 이상적입니다.

자동 평가(LLM/알고리즘 기반) : 여러 결과를 한 번에 평가하려면 "Evaluation Task"에서 여러 Response Set(model/service의 Output)과 평가 기준(Metrics)를 선택하고 평가를 시작해보세요. 기본 제공되는 Metrics을 선택하거나 맞춤형 Metrics을 만드는 것도 좋습니다.
- Metrics에서 사용할 지표를 선택합니다. (예: Bias, illegal, Response Relevancy 등)
- Beir+judgment-Leaderboard 는 gold_context와 retrieved_context가 있을 때 활성화됩니다.
- Task생성 완료하면 선택한 항목 전체에 대해 일괄 평가가 진행됩니다.
수동 평가(사람 평가)
- Manual Evaluation 또는 Interactive Evaluation에서 사람이 직접 점수를 부여합니다.
- 자동 평가 결과와 함께 참고하면 더 정교한 분석이 가능합니다.

👉 Metrics 설정 가이드: /setup-guide/metric-management
👉 자동 평가 실행: /tutorials/judgment-eval/eval-task/eval-results
👉 수동 평가 실행: /tutorials/human-eval/

4. 결과 해석 (Results)

평가가 끝나면 Dashboard / Task Metrics에서 결과를 확인할 수 있습니다.

모델/프롬프트 비교: 평균 점수, 분포, 편차를 통해 성능 차이를 파악
TableView: 쿼리별 점수와 응답을 확인하여 문제 사례를 빠르게 식별

필요 시 결과를 Export하여 보고서나 공유 문서에 활용하세요.

👉 결과 살펴보기: /tutorials/judgment-eval/eval-task/eval-results

5. 다음 단계 (Optional)

다양한 평가를 통하여 추가적인 분석을 진행할 수 있습니다.

Ragas 기반 평가: Ragas가 제공하는 매트릭으로 평가 하려면 /tutorials/judgment-eval/ragas-task/
RAG 품질 점검: 컨텍스트 회수의 정확도를 따로 점검하려면 /tutorials/judgment-eval/rag/rag-checker
자동 레드팀 테스트: 안전성 취약점 탐지 시나리오를 확장하려면 /tutorials/judgment-eval/auto-redteaming/overview

자주 묻는 질문 (FAQ)

Q1. Reference-based 지표가 비활성화예요. 왜죠?
A. Expected Response 등 기준 답안을 데이터셋에 포함했는지 확인하세요. 기준이 있어야 해당 지표가 활성화됩니다.

Q2. 모델 키 없이도 수동 평가는 가능한가요?
A. 가능합니다. 다만 응답 생성 또는 LLM 기반 자동 평가는 모델 키가 필요합니다. (0단계 참고)

Q3. 점수 기준(루브릭)을 바꾸고 싶어요.
A. Metrics에서 지표/루브릭을 편집하거나 커스텀 지표를 추가하세요. 팀의 평가 기준에 맞게 조정할 수 있습니다.

한판정리

모델/API 키 추가 → 2) Dataset 준비 → 3) Task 생성 → 4) 자동/수동 평가 실행 → 5) Dashboard에서 결과 확인

0. 모델·에이전트 등록 (필수)​

1. Dataset 구성하기​

AI 생성 (Dataset 페이지)​

생성 흐름​

CSV/XLSX 업로드로 데이터셋 구성​

2. 평가 Task 생성​

3. 평가 실행 (Evaluate)​

4. 결과 해석 (Results)​

5. 다음 단계 (Optional)​

자주 묻는 질문 (FAQ)​