Basic Evaluation
Basic Evaluation 기능은 사용자에게 모델 평가를 할 수 있는 기본 평가 기능을 제공합니다.
프로젝트 단위로 구성되어 평가 결과를 확인할 수 있는 흐름을 제공합니다.
프로젝트 생성 방법은 Setting Up Your First Project 페이지를 참고해 주세요.
d Datumo Eval의 기본 평가 흐름은 프로젝트 생성 후, 데이터셋 구성부터 평가 결과 확인까지 총 4단계로 구성되어 있습니다:
- 평가 데이터셋 구성
- 데이터셋 확인 및 저장
- 평가 실행 및 모델 선택
- 평가 결과 확인 (Dashboard & Table View)
📚 Basic Evaluation Tutorial 구성
Setting Up Dataset
Dataset & Review Editing
Running Evaluation
Viewing Results
Edit Results
Project Management
📘 Basic Evaluation Flow
Step 1: 평가 데이터셋 생성
평가를 시작하기 전에 사용할 데이터셋을 사전 구성해야 합니다.
문서(Context)를 업로드하거나, 쿼리·응답 데이터를 직접 입력하여 다양한 방식의 평가용 데이터셋을 만들 수 있습니다.
데이터셋 구성 방식은 다음 3가지 Upload Type 중에서 선택할 수 있습니다:
업로드 타입 | 구성 방식 | 설명 |
---|---|---|
Query Generation | Context-only | 문서만 업로드하면 질문을 생성할 수 있습니다. 도메인에 맞춘 파라미터를 설정하여 특정 유형의 질문을 만들고, 샘플 질문을 확인한 뒤 전체 질문 세트를 구성할 수 있습니다. |
Query Upload | Context + Query | 문서와 함께 사용자가 직접 작성한 질문을 업로드하여, 질문 그대로 평가에 활용할 수 있습니다. |
Response Upload | Query + Response | 질문과 모델 응답 데이터를 직접 업로드하면, 별도 응답 수집 없이 평가를 즉시 실행할 수 있습니다. |
업로드 방식에 따라 선택 가능한 타겟 모델 조건과 평가 흐름이 달라질 수 있습니다.
👉 자세한 구성 방법은 Setting Up Dataset 페이지를 참고해 주세요.
Step 2: 데이터셋 확인 및 저장
구성한 데이터셋의 질문/응답 구조를 검토한 후 저장합니다.
필요한 경우 평가 전 데이터셋을 수정하거나 보완할 수 있으며,
👉 자세한 검수·수정 기능은 Dataset & Review Editing 페이지를 참고해 주세요.
Step 3: 자동 평가 실행
저장한 데이터셋에서 타겟 모델을 선택한 뒤 평가를 실행합니다.
업로드 방식에 따라 가능한 모델 선택 조건은 다음과 같습니다:
-
Context-only / Context + Query
→ 다중 타겟 모델 선택 가능 -
Query + Response
→ 사전 응답이 있는 모델만 선택 가능
(단, 이때 "Add Anyway"로 추가한 모델은 응답 수집 불가하므로 주의 필요)
👉 평가 실행 화면은 Running Evaluation 페이지에서 자세히 설명합니다.
Step 4: 평가 결과 확인
평가가 완료되면 대시보드에서 결과를 확인할 수 있습니다:
- 지표별 점수 분포
- 응답별 점수 및 평가 사유
- Table View에서 상세 내용 확인 가능
👉 결과 확인 방법은 Viewing Results 페이지를 참고해 주세요.
기타 Evaluation 유형
- RAG Checker PRO
→ 모델의 정확성 및 문서 기반 응답 품질 평가 - Red-teaming Add-on
→ 모델의 취약점 및 리스크 평가