Skip to main content

Basic Evaluation

Basic Evaluation 기능은 사용자에게 모델 평가를 할 수 있는 기본 평가 기능을 제공합니다.
프로젝트 단위로 구성되어 평가 결과를 확인할 수 있는 흐름을 제공합니다.

info

프로젝트 생성 방법은 Setting Up Your First Project 페이지를 참고해 주세요.

d Datumo Eval의 기본 평가 흐름은 프로젝트 생성 후, 데이터셋 구성부터 평가 결과 확인까지 총 4단계로 구성되어 있습니다:

  1. 평가 데이터셋 구성
  2. 데이터셋 확인 및 저장
  3. 평가 실행 및 모델 선택
  4. 평가 결과 확인 (Dashboard & Table View)



📚 Basic Evaluation Tutorial 구성




📘 Basic Evaluation Flow

Step 1: 평가 데이터셋 생성

평가를 시작하기 전에 사용할 데이터셋을 사전 구성해야 합니다.
문서(Context)를 업로드하거나, 쿼리·응답 데이터를 직접 입력하여 다양한 방식의 평가용 데이터셋을 만들 수 있습니다.

데이터셋 구성 방식은 다음 3가지 Upload Type 중에서 선택할 수 있습니다:

업로드 타입구성 방식설명
Query GenerationContext-only문서만 업로드하면 질문을 생성할 수 있습니다. 도메인에 맞춘 파라미터를 설정하여 특정 유형의 질문을 만들고, 샘플 질문을 확인한 뒤 전체 질문 세트를 구성할 수 있습니다.
Query UploadContext + Query문서와 함께 사용자가 직접 작성한 질문을 업로드하여, 질문 그대로 평가에 활용할 수 있습니다.
Response UploadQuery + Response질문과 모델 응답 데이터를 직접 업로드하면, 별도 응답 수집 없이 평가를 즉시 실행할 수 있습니다.

업로드 방식에 따라 선택 가능한 타겟 모델 조건과 평가 흐름이 달라질 수 있습니다.
👉 자세한 구성 방법은 Setting Up Dataset 페이지를 참고해 주세요.




Step 2: 데이터셋 확인 및 저장

구성한 데이터셋의 질문/응답 구조를 검토한 후 저장합니다.
필요한 경우 평가 전 데이터셋을 수정하거나 보완할 수 있으며,
👉 자세한 검수·수정 기능은 Dataset & Review Editing 페이지를 참고해 주세요.



Step 3: 자동 평가 실행

저장한 데이터셋에서 타겟 모델을 선택한 뒤 평가를 실행합니다.
업로드 방식에 따라 가능한 모델 선택 조건은 다음과 같습니다:

  • Context-only / Context + Query
    → 다중 타겟 모델 선택 가능

  • Query + Response
    → 사전 응답이 있는 모델만 선택 가능
    (단, 이때 "Add Anyway"로 추가한 모델은 응답 수집 불가하므로 주의 필요)

👉 평가 실행 화면은 Running Evaluation 페이지에서 자세히 설명합니다.



Step 4: 평가 결과 확인

평가가 완료되면 대시보드에서 결과를 확인할 수 있습니다:

  • 지표별 점수 분포
  • 응답별 점수 및 평가 사유
  • Table View에서 상세 내용 확인 가능

👉 결과 확인 방법은 Viewing Results 페이지를 참고해 주세요.



기타 Evaluation 유형

  • RAG Checker PRO
    → 모델의 정확성 및 문서 기반 응답 품질 평가
  • Red-teaming Add-on
    → 모델의 취약점 및 리스크 평가