본문으로 건너뛰기

Metric Management

Overview
  • Evaluation Task에서 사용할 평가지표(Metric) 를 생성·관리하는 기능입니다.
  • 기본 Metric 외에, 루브릭과 프롬프트를 직접 정의한 맞춤형 Metric을 구성할 수 있습니다.
  • 평가 방식(Method)은 사용자 목적에 따라 Likert Scale 또는 G-Eval을 선택할 수 있습니다.

Metric Management 소개

Metric Management는 Evaluation Task에서 기준으로 사용할 평가 지표(Metric)를 관리하는 기능입니다.
서비스 유형이나 도메인 특성에 따라 사용자 맞춤형 평가 기준을 정의하고, 동일 기준으로 반복 평가할 수 있도록 도와줍니다.

  • Metric 생성: 평가 기준(루브릭)을 생성하고 저장
  • Preview Run Test: 작성한 Metric이 정상적으로 작동하는지 테스트
  • Custom Prompt 설정(고급 기능): System/User Prompt를 직접 구성
  • Metric 관리: 생성된 Metric 확인, 미리보기 실행, 삭제

좌측 네비게이션에서는 Evaluation Metric Setting 으로 표시되며,
생성된 Metric은 Dataset·Evaluation Task에서 그대로 선택해 사용할 수 있습니다.


Metric 생성 (기본 설정)

1. 신규 Metric 생성

Datumo Eval에서 제공하는 기본 Metric 외에도, 서비스·도메인별 필요에 맞춰 새로운 Metric을 직접 생성할 수 있습니다.
기본 설정에서는 루브릭(Scale)을 중심으로 평가지표를 구성하며, 이후 Evaluation Task에서 바로 사용할 수 있습니다.

① 메뉴 진입

좌측 네비게이션에서 Metric Management 메뉴로 이동합니다.

② [+ New Metric] 클릭

새로운 Metric 생성을 시작합니다. 버튼을 누르면 Metric 생성 모달이 열립니다.

③ 평가 방식 선택

모달에서 Metric에 사용할 평가 방식을 선택합니다. 선택 후 생성 화면으로 이동합니다.

평가 방식(Method)
  • Likert Scale: 1~n과 같은 고정된 척도를 그대로 점수로 사용하는 방식
  • G-Eval: 모델이 반환한 점수(1~n)와 해당 점수의 확률을 활용해 기대값 기반으로 최종 점수를 산정하는 방식
[+ New Metric] 선택 후 생성 화면으로 이동합니다.

2. Rubric(Scale) 설정

① Metric 기본 정보 입력

Metric 이름과 용도를 구분하기 위한 기본 정보를 입력합니다.
Metric Name, Category, Metric Description, Prompt Description 등을 설정합니다.

② 점수 스케일 구성

1~n까지의 점수(Scale)가 자동 생성되며, 각 점수에 대한 설명(루브릭)을 입력합니다.
점수별로 어떤 응답을 어떤 수준으로 평가할지 구체적으로 적어줍니다.

③ Rubric 단계 추가

필요하다면 [+ Add Rubric]을 사용해 점수 단계를 추가할 수 있습니다.
이진 구조(예/아니오)가 아니라 세분화된 평가가 필요할 때 단계 수를 늘립니다.

점수별 루브릭을 입력하고, 필요 시 [+ Add Rubric]으로 단계를 추가합니다.
Rubric 화면 구성 상세 보기
  • Metric Name: 생성할 Metric의 이름을 입력합니다.
  • Category: Metric을 그룹화하기 위한 카테고리를 설정합니다. 같은 카테고리의 Metric은 대시보드에서 평균 점수 등으로 비교할 수 있습니다.
  • Metric Description: 해당 Metric이 무엇을 평가하는지 설명합니다.
  • Prompt Description: 평가 기준(루브릭)의 목적과 방향을 설명하며, User Prompt의 {{desc}}로 자동 반영됩니다.
  • Scale: 점수 스케일을 구성하는 영역입니다. 점수는 1부터 n까지 자동 생성되며, 각 점수에 대한 설명을 입력할 수 있습니다.
  • Add Scale: 이진 구조가 아닌 다단계 루브릭이 필요한 경우 점수를 추가합니다.

3. 평가 미리보기 (Run Test)

① 테스트 조건 입력

Evaluation Preview 영역에서 테스트에 사용할 Judge Model을 선택합니다.
Query와 Response를 입력해 실제 평가 상황과 유사한 데이터를 준비합니다.

② Run Test 실행

[Run Test] 버튼을 클릭해 작성한 루브릭이 의도대로 동작하는지 확인합니다.
실행 후 항목별 점수와 평가 사유를 함께 확인할 수 있습니다.

③ 루브릭 재검토

필요하다면 루브릭 내용을 수정한 뒤 다시 Run Test를 실행해, 원하는 평가 기준이 구현될 때까지 반복 검토합니다.

Judge Model과 테스트용 Query·Response를 입력한 뒤 Run Test를 실행합니다.
항목별 점수와 평가 사유를 함께 확인할 수 있습니다.

4. Metric 저장 및 활용

① Metric 저장

루브릭 설정과 미리보기를 마쳤다면 [Save] 버튼을 클릭해 Metric을 저장합니다.

② 생성 상태 확인

저장된 Metric은 목록에서 Create 상태로 표시됩니다.
이 상태가 표시되면 Dataset 생성 및 Evaluation Task 설정에서 해당 Metric을 선택해 사용할 수 있습니다.

[Save] 버튼을 클릭하면 Metric 생성이 완료됩니다.
저장된 Metric은 목록에서 Create 상태로 구분됩니다.

Metric 생성 (고급 설정 – Use Custom Prompt)

1. Use Custom Prompt

기본 제공 프롬프트만으로는 특정 사용 사례를 충분히 반영하기 어렵거나, 프롬프트를 세밀하게 제어해야 하는 경우가 있습니다.
이럴 때 Use Custom Prompt 기능을 사용해 프롬프트부터 직접 정의된 Metric을 만들 수 있습니다.

Use Custom Prompt는 기본 Metric 생성 흐름에 익숙한 사용자를 위한 고급 옵션입니다.
프롬프트 설계, Judge Model 제어가 필요한 경우에 사용하는 것을 권장합니다.

① Method 선택

새 Metric을 생성할 때, 설정 화면에서 Use Custom Prompt 옵션을 선택합니다.
이 옵션을 활성화하면 Scale, Prompt, Scale Prompt, Evaluation Preview 탭을 중심으로 고급 설정을 진행할 수 있습니다.

Use Custom Prompt 옵션을 활성화하면 프롬프트 기반 Metric 설정 기능이 열립니다.
안내 사항 (필독)
  • 점수 스케일은 Scale 탭에서 정의되며, Scale Prompt에 자동으로 반영됩니다.
  • 점수 스케일과 출력 형식은 시스템에서 고정으로 관리되며 수정할 수 없습니다.
  • User Prompt에서 metadata 등 다른 컬럼을 활용하려면 {{컬럼명}} 형태로 변수를 입력해 사용할 수 있습니다.

2. 화면 구성별 상세 설명

아래 토글에서 Use Custom Prompt 사용 시 등장하는 각 탭의 전체 화면 구성 요소와 설명을 모두 확인할 수 있습니다.
초보 사용자는 Step을 따라가며 사용하고, 고급 사용자는 토글에서 세부 옵션을 확인할 수 있습니다.

① Scale 탭 상세 설명

Scale 탭에서는 Metric의 기본 정보와 점수 스케일(루브릭)을 설정합니다.
작성한 내용은 Prompt와 평가 수행 과정에 그대로 반영됩니다.

[Scale 탭 입력 항목 설명]

1. Metric Name*
Metric의 이름을 입력합니다.
이름은 Metric 목록, Dataset, Evaluation Task 설정 화면에서 식별자로 사용됩니다.

2. Category*
Metric을 어떤 기준으로 묶을지 카테고리를 설정합니다.
같은 Category로 묶인 Metric은 대시보드에서 평균 점수로 비교할 수 있습니다.

3. Metric Description
이 Metric이 어떤 목적을 가진 지표인지 설명합니다.
평가 결과 상세 화면, 대시보드 정보 패널 등에 표시됩니다.

4. Prompt Description*
평가 기준과 관점을 설명하는 문구입니다.
작성된 문구는 User Prompt의 desc 변수로 자동 연결되며, 모델이 어떤 기준으로 점수를 판단할지 직접적으로 영향을 줍니다.
필수 입력 항목입니다.

5. Scale*
Metric의 점수 단계를 입력하는 영역입니다.
1부터 시작하는 정수 스케일이 자동 생성되며, 각 점수별 세부 설명을 직접 입력해야 합니다.

6. Score Label (자동 표시)
각 점수가 대시보드에서 어떤 수치로 환산되는지를 의미하는 표시값입니다.
(Evaluated as 0.00 형태로 표현되며 입력값은 아님.)

7. Scale Description*
각 점수의 정확한 평가 기준을 작성합니다.
점수 1~n 각각에 대해 입력해야 하며,
작성한 내용은 User Prompt 및 Scale Prompt에 자동 반영됩니다.

8. Add Scale
점수 단계를 추가합니다.
이진 점수(예/아니오)가 아닌 세분화된 다단계 평가가 필요할 때 사용합니다.


② Prompt 탭 상세 설명

Prompt 탭에서는 평가 모델(Judge Model)이 응답을 평가할 때 사용할 System Prompt와
모델에 전달될 실제 평가 지시문인 User Prompt를 직접 작성할 수 있습니다.

  1. System Prompt
    평가 모델이 어떤 역할과 관점으로 평가를 수행해야 하는지 정의하는 영역입니다.
    모델의 페르소나와 판단 기준의 방향성을 지정하는 중요한 설정입니다.

    [System Prompt 입력 항목 설명]
    • 역할(Role) 정의
      평가 모델이 어떤 관점·규칙·태도로 평가를 수행해야 하는지 서술합니다.
      예: 공정성, 객관성, 특정 기준 준수 등의 역할 지시
    • 출력 형식(Output Format) 작성 불필요
      System Prompt에는 출력 형식을 별도로 작성하지 않습니다.
      출력 형식은 시스템에서 자동으로 생성되며 수정할 수 없습니다.
    • 반영 위치 및 우선순위
      System Prompt는 평가 요청 시 가장 먼저 모델에게 전달되며,
      User Prompt보다 높은 우선순위로 적용됩니다.
      따라서 평가 모델의 전체적인 행동 원칙을 결정하는 기준이 됩니다.
    • 예시
      You are a fair and objective AI assistant, designed to evaluate text based on a given set of criteria.
  2. User Prompt
    실제 평가를 수행할 때 사용되는 질문(query), 모델 응답(response), 평가 기준(desc) 등이 포함되는 영역입니다.
    {{변수명}} 형태의 템플릿 변수를 사용해 데이터셋의 값을 프롬프트에 반영합니다.

    [User Prompt 입력 항목 설명]
    • 역할(Role)
      User Prompt는 평가 모델이 실제로 판단해야 하는 데이터와 평가 기준을 전달하는 핵심 영역입니다.
      Query, Response, Rubric 등의 값이 이곳에서 설정되며, Evaluation Task 실행 시 그대로 모델에 입력됩니다.

    • 필수 입력 변수
      다음 변수들은 모든 평가에서 반드시 포함되어야 합니다.

      • {{query}} : 평가 대상 질문 데이터
      • {{response}} : 평가할 모델의 응답
      • {{desc}} : Prompt Description을 기반으로 자동 생성되는 루브릭(평가 기준)
    • 선택 입력 변수
      평가 유형에 따라 포함 여부가 달라지는 선택 항목입니다.

      • {{context}} : 질문 생성 시 참고한 Reference context
      • {{retrieved_context}} : RAG 기반 평가에서 검색된 문서나 추가 정보
    • 반영 방식
      모든 변수는 데이터셋의 컬럼명 또는 시스템이 제공하는 예약 변수명을 그대로 사용합니다.
      입력된 값은 User Prompt 문장 내 위치한 변수에 자동 삽입되어 평가 모델에 전달됩니다.

    • 작성 예시

      ### Instruction
      Please evaluate the provided "Response to Evaluate" based on the "Query" and the "Evaluation Criteria (Rubric)". If "Retrieved Context" is available, consider it to assess for issues like hallucination.

      ### Query
      {{query}}

      ### Retrieved Context
      {{retrieved_context}}

      ### Response to Evaluate
      {{response}}

      ### Evaluation Criteria (Rubric)
      {{desc}}
  3. Scale Prompt (수정 불가)
    Scale Prompt는 사용자가 직접 작성하지 않는 읽기 전용 영역입니다.
    Scale 탭에서 입력한 Prompt Description과 점수 스케일 정보가 {{desc}} 변수로 묶여
    User Prompt에 어떻게 반영되는지 최종 형태로 확인할 수 있습니다.

    [Scale Prompt 화면 구성 설명]
    • 자동 생성 영역
      Scale Prompt는 별도로 작성하는 공간이 아니라,
      Scale 탭에서 입력한 루브릭 정의(Prompt Description + Score Descriptions)가
      시스템에 의해 자동으로 조합되어 표시됩니다.

    • 수정 불가 구조
      Scale Prompt는 실제 프롬프트 구조의 일관성을 유지하기 위해
      편집이 불가능하도록 고정된 영역입니다.
      오직 확인 기능만 제공하며, 모든 수정은 Scale 탭에서 진행해야 합니다.

    • 반영 목적
      이 탭은 다음을 확인하기 위한 용도로 사용됩니다.

      • desc 변수에 어떤 루브릭 설명이 포함되는지
      • 점수별 스케일 설명이 User Prompt에 어떤 형태로 삽입되는지
      • 평가 시 모델에게 전달될 프롬프트의 최종 구성
    • 사용자 권장 사항
      Scale Prompt는 편집 불가이므로,
      루브릭 내용이나 설명을 변경하려면 반드시 Scale 탭에서 수정을 진행한 뒤
      이 화면에서 반영 여부를 확인합니다.


3. Run Test로 확인

입력한 프롬프트가 정상적으로 작동하는지 확인하려면, Run Test 실행 후 Detail 영역에서
실제 모델에 어떻게 입력되는지 확인할 수 있습니다.
Run Test는 작성한 Metric을 테스트하여 해당 프롬프트와 설정이 의도대로 작동하는지 점검하는 기능입니다.

  • 항목별 점수와 함께, 적용된 프롬프트 내용과 모델의 reasoning을 확인할 수 있습니다.
  • 프롬프트를 수정하면서 테스트를 반복해볼 수 있습니다.
Prompt 반영 결과는 평가 상세에서 확인할 수 있습니다.

4. 프롬프트 설정 저장

프롬프트 설정을 완료한 후 Metric을 저장하고, 실제 평가에 사용할 수 있습니다.
저장 후 생성된 Metric은 대시보드에서 확인할 수 있으며, 후속 Evaluation Task에서 재사용할 수 있습니다.

Save 버튼으로 생성을 완료합니다.

Metric 관리 기능

생성한 Metric을 선택하면 해당 Metric의 상세 페이지로 이동합니다. 이 페이지에서는 다음과 같은 기능을 사용할 수 있습니다.

  • Metric 상세 정보 확인
  • Preview Run Test 실행
  • Metric 삭제

① Metric 상세 화면 안내

Metric을 선택하면 Metric Detail 페이지로 이동합니다.
Use Custom Prompt 사용 여부에 따라 화면에 표시되는 항목 구성이 달라집니다.

② Preview Run Test

각 Metric에 대해 미리보기 평가(Preview Run)를 실행해볼 수 있습니다.
실제 평가 전에 테스트 결과를 확인해, 설정한 평가 기준이 잘 작동하는지 검증할 수 있습니다.

  • Run Test 실행 전, 필요한 경우 Metadata 값을 JSON 형식으로 입력해야 합니다.
  • Preview Run을 통해 설정한 평가 기준을 실제 모델에 적용해볼 수 있습니다.

평가가 완료된 데이터는 점수뿐 아니라, 데이터 선택 시 세부 평가 사유까지 확인할 수 있습니다.

평가가 완료된 데이터는 점수와 세부 평가 사유를 함께 제공합니다.
Use Custom Prompt 기능을 사용한 경우, 적용된 프롬프트 내용도 함께 확인할 수 있습니다.

③ Metric 삭제

생성한 Metric은 목록에서 개별 삭제할 수 있습니다.
삭제된 Metric은 복구할 수 없으나, 이미 수행된 평가 결과에는 영향을 주지 않습니다.

삭제는 우측 상단의 Delete 버튼을 통해 진행할 수 있습니다.