Metric Management

Overview

Evaluation Task에서 사용할 평가지표(Metric) 를 생성·관리하는 기능입니다.
기본 Metric 외에, 루브릭과 프롬프트를 직접 정의한 맞춤형 Metric을 구성할 수 있습니다.
평가 방식(Method)은 사용자 목적에 따라 Likert Scale 또는 G-Eval을 선택할 수 있습니다.

Metric Management 소개

Metric Management는 Evaluation Task에서 기준으로 사용할 평가 지표(Metric)를 관리하는 기능입니다.
서비스 유형이나 도메인 특성에 따라 사용자 맞춤형 평가 기준을 정의하고, 동일 기준으로 반복 평가할 수 있도록 도와줍니다.

Metric 생성: 평가 기준(루브릭)을 생성하고 저장
Preview Run Test: 작성한 Metric이 정상적으로 작동하는지 테스트
Custom Prompt 설정(고급 기능): System/User Prompt를 직접 구성
Metric 관리: 생성된 Metric 확인, 미리보기 실행, 삭제

좌측 네비게이션에서는 Evaluation Metric Setting 으로 표시되며,
생성된 Metric은 Dataset·Evaluation Task에서 그대로 선택해 사용할 수 있습니다.

Metric 생성 (기본 설정)

1. 신규 Metric 생성

Datumo Eval에서 제공하는 기본 Metric 외에도, 서비스·도메인별 필요에 맞춰 새로운 Metric을 직접 생성할 수 있습니다.
기본 설정에서는 루브릭(Scale)을 중심으로 평가지표를 구성하며, 이후 Evaluation Task에서 바로 사용할 수 있습니다.

① 메뉴 진입

좌측 네비게이션에서 Metric Management 메뉴로 이동합니다.

② [+ New Metric] 클릭

새로운 Metric 생성을 시작합니다. 버튼을 누르면 Metric 생성 모달이 열립니다.

③ 평가 방식 선택

모달에서 Metric에 사용할 평가 방식을 선택합니다. 선택 후 생성 화면으로 이동합니다.

평가 방식(Method)

Likert Scale: 1~n과 같은 고정된 척도를 그대로 점수로 사용하는 방식
G-Eval: 모델이 반환한 점수(1~n)와 해당 점수의 확률을 활용해 기대값 기반으로 최종 점수를 산정하는 방식

2. Rubric(Scale) 설정

① Metric 기본 정보 입력

Metric 이름과 용도를 구분하기 위한 기본 정보를 입력합니다.
Metric Name, Category, Metric Description, Prompt Description 등을 설정합니다.

② 점수 스케일 구성

1~n까지의 점수(Scale)가 자동 생성되며, 각 점수에 대한 설명(루브릭)을 입력합니다.
점수별로 어떤 응답을 어떤 수준으로 평가할지 구체적으로 적어줍니다.

③ Rubric 단계 추가

필요하다면 [+ Add Rubric]을 사용해 점수 단계를 추가할 수 있습니다.
이진 구조(예/아니오)가 아니라 세분화된 평가가 필요할 때 단계 수를 늘립니다.

점수별 루브릭을 입력하고, 필요 시 [+ Add Rubric]으로 단계를 추가합니다.

Rubric 화면 구성 상세 보기

Metric Name: 생성할 Metric의 이름을 입력합니다.
Category: Metric을 그룹화하기 위한 카테고리를 설정합니다. 같은 카테고리의 Metric은 대시보드에서 평균 점수 등으로 비교할 수 있습니다.
Metric Description: 해당 Metric이 무엇을 평가하는지 설명합니다.
Prompt Description: 평가 기준(루브릭)의 목적과 방향을 설명하며, User Prompt의 {{desc}}로 자동 반영됩니다.
Scale: 점수 스케일을 구성하는 영역입니다. 점수는 1부터 n까지 자동 생성되며, 각 점수에 대한 설명을 입력할 수 있습니다.
Add Scale: 이진 구조가 아닌 다단계 루브릭이 필요한 경우 점수를 추가합니다.

3. 평가 미리보기 (Run Test)

① 테스트 조건 입력

Evaluation Preview 영역에서 테스트에 사용할 Judge Model을 선택합니다.
Query와 Response를 입력해 실제 평가 상황과 유사한 데이터를 준비합니다.

② Run Test 실행

[Run Test] 버튼을 클릭해 작성한 루브릭이 의도대로 동작하는지 확인합니다.
실행 후 항목별 점수와 평가 사유를 함께 확인할 수 있습니다.

③ 루브릭 재검토

필요하다면 루브릭 내용을 수정한 뒤 다시 Run Test를 실행해, 원하는 평가 기준이 구현될 때까지 반복 검토합니다.

Judge Model과 테스트용 Query·Response를 입력한 뒤 Run Test를 실행합니다.

4. Metric 저장 및 활용

① Metric 저장

루브릭 설정과 미리보기를 마쳤다면 [Save] 버튼을 클릭해 Metric을 저장합니다.

② 생성 상태 확인

저장된 Metric은 목록에서 Create 상태로 표시됩니다.
이 상태가 표시되면 Dataset 생성 및 Evaluation Task 설정에서 해당 Metric을 선택해 사용할 수 있습니다.

Metric 생성 (고급 설정 – Use Custom Prompt)

1. Use Custom Prompt

기본 제공 프롬프트만으로는 특정 사용 사례를 충분히 반영하기 어렵거나, 프롬프트를 세밀하게 제어해야 하는 경우가 있습니다.
이럴 때 Use Custom Prompt 기능을 사용해 프롬프트부터 직접 정의된 Metric을 만들 수 있습니다.

Use Custom Prompt는 기본 Metric 생성 흐름에 익숙한 사용자를 위한 고급 옵션입니다.
프롬프트 설계, Judge Model 제어가 필요한 경우에 사용하는 것을 권장합니다.

① Method 선택

새 Metric을 생성할 때, 설정 화면에서 Use Custom Prompt 옵션을 선택합니다.
이 옵션을 활성화하면 Scale, Prompt, Scale Prompt, Evaluation Preview 탭을 중심으로 고급 설정을 진행할 수 있습니다.

Use Custom Prompt 옵션을 활성화하면 프롬프트 기반 Metric 설정 기능이 열립니다.

안내 사항 (필독)

점수 스케일은 Scale 탭에서 정의되며, Scale Prompt에 자동으로 반영됩니다.
점수 스케일과 출력 형식은 시스템에서 고정으로 관리되며 수정할 수 없습니다.
User Prompt에서 metadata 등 다른 컬럼을 활용하려면 {{컬럼명}} 형태로 변수를 입력해 사용할 수 있습니다.

2. 화면 구성별 상세 설명

아래 토글에서 Use Custom Prompt 사용 시 등장하는 각 탭의 전체 화면 구성 요소와 설명을 모두 확인할 수 있습니다.
초보 사용자는 Step을 따라가며 사용하고, 고급 사용자는 토글에서 세부 옵션을 확인할 수 있습니다.

① Scale 탭 상세 설명

Scale 탭에서는 Metric의 기본 정보와 점수 스케일(루브릭)을 설정합니다.
작성한 내용은 Prompt와 평가 수행 과정에 그대로 반영됩니다.

[Scale 탭 입력 항목 설명]

1. Metric Name*
Metric의 이름을 입력합니다.
이름은 Metric 목록, Dataset, Evaluation Task 설정 화면에서 식별자로 사용됩니다.

2. Category*
Metric을 어떤 기준으로 묶을지 카테고리를 설정합니다.
같은 Category로 묶인 Metric은 대시보드에서 평균 점수로 비교할 수 있습니다.

3. Metric Description
이 Metric이 어떤 목적을 가진 지표인지 설명합니다.
평가 결과 상세 화면, 대시보드 정보 패널 등에 표시됩니다.

4. Prompt Description*
평가 기준과 관점을 설명하는 문구입니다.
작성된 문구는 User Prompt의 desc 변수로 자동 연결되며, 모델이 어떤 기준으로 점수를 판단할지 직접적으로 영향을 줍니다.
필수 입력 항목입니다.

5. Scale*
Metric의 점수 단계를 입력하는 영역입니다.
1부터 시작하는 정수 스케일이 자동 생성되며, 각 점수별 세부 설명을 직접 입력해야 합니다.

6. Score Label (자동 표시)
각 점수가 대시보드에서 어떤 수치로 환산되는지를 의미하는 표시값입니다.
(Evaluated as 0.00 형태로 표현되며 입력값은 아님.)

7. Scale Description*
각 점수의 정확한 평가 기준을 작성합니다.
점수 1~n 각각에 대해 입력해야 하며,
작성한 내용은 User Prompt 및 Scale Prompt에 자동 반영됩니다.

8. Add Scale
점수 단계를 추가합니다.
이진 점수(예/아니오)가 아닌 세분화된 다단계 평가가 필요할 때 사용합니다.

② Prompt 탭 상세 설명

Prompt 탭에서는 평가 모델(Judge Model)이 응답을 평가할 때 사용할 System Prompt와
모델에 전달될 실제 평가 지시문인 User Prompt를 직접 작성할 수 있습니다.

System Prompt
평가 모델이 어떤 역할과 관점으로 평가를 수행해야 하는지 정의하는 영역입니다.
모델의 페르소나와 판단 기준의 방향성을 지정하는 중요한 설정입니다.
[System Prompt 입력 항목 설명]
- 역할(Role) 정의
  평가 모델이 어떤 관점·규칙·태도로 평가를 수행해야 하는지 서술합니다.
  예: 공정성, 객관성, 특정 기준 준수 등의 역할 지시
- 출력 형식(Output Format) 작성 불필요
  System Prompt에는 출력 형식을 별도로 작성하지 않습니다.
  출력 형식은 시스템에서 자동으로 생성되며 수정할 수 없습니다.
- 반영 위치 및 우선순위
  System Prompt는 평가 요청 시 가장 먼저 모델에게 전달되며,
  User Prompt보다 높은 우선순위로 적용됩니다.
  따라서 평가 모델의 전체적인 행동 원칙을 결정하는 기준이 됩니다.
- 예시
  You are a fair and objective AI assistant, designed to evaluate text based on a given set of criteria.
User Prompt
실제 평가를 수행할 때 사용되는 질문(query), 모델 응답(response), 평가 기준(desc) 등이 포함되는 영역입니다.
{{변수명}} 형태의 템플릿 변수를 사용해 데이터셋의 값을 프롬프트에 반영합니다.
[User Prompt 입력 항목 설명]
- 역할(Role)
  User Prompt는 평가 모델이 실제로 판단해야 하는 데이터와 평가 기준을 전달하는 핵심 영역입니다.
  Query, Response, Rubric 등의 값이 이곳에서 설정되며, Evaluation Task 실행 시 그대로 모델에 입력됩니다.
- 필수 입력 변수
  다음 변수들은 모든 평가에서 반드시 포함되어야 합니다.
  
  {{query}} : 평가 대상 질문 데이터
  
  {{response}} : 평가할 모델의 응답
  
  {{desc}} : Prompt Description을 기반으로 자동 생성되는 루브릭(평가 기준)
- 선택 입력 변수
  평가 유형에 따라 포함 여부가 달라지는 선택 항목입니다.
  
  {{context}} : 질문 생성 시 참고한 Reference context
  
  {{retrieved_context}} : RAG 기반 평가에서 검색된 문서나 추가 정보
- 반영 방식
  모든 변수는 데이터셋의 컬럼명 또는 시스템이 제공하는 예약 변수명을 그대로 사용합니다.
  입력된 값은 User Prompt 문장 내 위치한 변수에 자동 삽입되어 평가 모델에 전달됩니다.
- 작성 예시
  
  ### Instruction Please evaluate the provided "Response to Evaluate" based on the "Query" and the "Evaluation Criteria (Rubric)". If "Retrieved Context" is available, consider it to assess for issues like hallucination. ### Query {{query}} ### Retrieved Context {{retrieved_context}} ### Response to Evaluate {{response}} ### Evaluation Criteria (Rubric) {{desc}}
Scale Prompt (수정 불가)
Scale Prompt는 사용자가 직접 작성하지 않는 읽기 전용 영역입니다.
Scale 탭에서 입력한 Prompt Description과 점수 스케일 정보가 {{desc}} 변수로 묶여
User Prompt에 어떻게 반영되는지 최종 형태로 확인할 수 있습니다.
[Scale Prompt 화면 구성 설명]
- 자동 생성 영역
  Scale Prompt는 별도로 작성하는 공간이 아니라,
  Scale 탭에서 입력한 루브릭 정의(Prompt Description + Score Descriptions)가
  시스템에 의해 자동으로 조합되어 표시됩니다.
- 수정 불가 구조
  Scale Prompt는 실제 프롬프트 구조의 일관성을 유지하기 위해
  편집이 불가능하도록 고정된 영역입니다.
  오직 확인 기능만 제공하며, 모든 수정은 Scale 탭에서 진행해야 합니다.
- 반영 목적
  이 탭은 다음을 확인하기 위한 용도로 사용됩니다.
  
  desc 변수에 어떤 루브릭 설명이 포함되는지
  
  점수별 스케일 설명이 User Prompt에 어떤 형태로 삽입되는지
  
  평가 시 모델에게 전달될 프롬프트의 최종 구성
- 사용자 권장 사항
  Scale Prompt는 편집 불가이므로,
  루브릭 내용이나 설명을 변경하려면 반드시 Scale 탭에서 수정을 진행한 뒤
  이 화면에서 반영 여부를 확인합니다.

3. Run Test로 확인

입력한 프롬프트가 정상적으로 작동하는지 확인하려면, Run Test 실행 후 Detail 영역에서
실제 모델에 어떻게 입력되는지 확인할 수 있습니다.
Run Test는 작성한 Metric을 테스트하여 해당 프롬프트와 설정이 의도대로 작동하는지 점검하는 기능입니다.

항목별 점수와 함께, 적용된 프롬프트 내용과 모델의 reasoning을 확인할 수 있습니다.
프롬프트를 수정하면서 테스트를 반복해볼 수 있습니다.

4. 프롬프트 설정 저장

프롬프트 설정을 완료한 후 Metric을 저장하고, 실제 평가에 사용할 수 있습니다.
저장 후 생성된 Metric은 대시보드에서 확인할 수 있으며, 후속 Evaluation Task에서 재사용할 수 있습니다.

Metric 관리 기능

생성한 Metric을 선택하면 해당 Metric의 상세 페이지로 이동합니다. 이 페이지에서는 다음과 같은 기능을 사용할 수 있습니다.

Metric 상세 정보 확인
Preview Run Test 실행
Metric 삭제

① Metric 상세 화면 안내

Use Custom Prompt 사용 여부에 따라 화면에 표시되는 항목 구성이 달라집니다.

② Preview Run Test

각 Metric에 대해 미리보기 평가(Preview Run)를 실행해볼 수 있습니다.
실제 평가 전에 테스트 결과를 확인해, 설정한 평가 기준이 잘 작동하는지 검증할 수 있습니다.

Run Test 실행 전, 필요한 경우 Metadata 값을 JSON 형식으로 입력해야 합니다.

Preview Run을 통해 설정한 평가 기준을 실제 모델에 적용해볼 수 있습니다.

평가가 완료된 데이터는 점수뿐 아니라, 데이터 선택 시 세부 평가 사유까지 확인할 수 있습니다.

Use Custom Prompt 기능을 사용한 경우, 적용된 프롬프트 내용도 함께 확인할 수 있습니다.

③ Metric 삭제

생성한 Metric은 목록에서 개별 삭제할 수 있습니다.
삭제된 Metric은 복구할 수 없으나, 이미 수행된 평가 결과에는 영향을 주지 않습니다.