Metric Management
- Evaluation Task에서 사용할 평가지표(Metric) 를 생성·관리하는 기능입니다.
- 기본 Metric 외에, 루브릭과 프롬프트를 직접 정의한 맞춤형 Metric을 구성할 수 있습니다.
- 평가 방식(Method)은 사용자 목적에 따라 Likert Scale 또는 G-Eval을 선택할 수 있습니다.
Metric Management 소개
Metric Management는 Evaluation Task에서 기준으로 사용할 평가 지표(Metric)를 관리하는 기능입니다.
서비스 유형이나 도메인 특성에 따라 사용자 맞춤형 평가 기준을 정의하고, 동일 기준으로 반복 평가할 수 있도록 도와줍니다.
- Metric 생성: 평가 기준(루브릭)을 생성하고 저장
- Preview Run Test: 작성한 Metric이 정상적으로 작동하는지 테스트
- Custom Prompt 설정(고급 기능): System/User Prompt를 직접 구성
- Metric 관리: 생성된 Metric 확인, 미리보기 실행, 삭제
좌측 네비게이션에서는 Evaluation Metric Setting 으로 표시되며,
생성된 Metric은 Dataset·Evaluation Task에서 그대로 선택해 사용할 수 있습니다.
Metric 생성 (기본 설정)
1. 신규 Metric 생성
Datumo Eval에서 제공하는 기본 Metric 외에도, 서비스·도메인별 필요에 맞춰 새로운 Metric을 직접 생성할 수 있습니다.
기본 설정에서는 루브릭(Scale)을 중심으로 평가지표를 구성하며, 이후 Evaluation Task에서 바로 사용할 수 있습니다.
① 메뉴 진입
좌측 네비게이션에서 Metric Management 메뉴로 이동합니다.
② [+ New Metric] 클릭
새로운 Metric 생성을 시작합니다. 버튼을 누르면 Metric 생성 모달이 열립니다.
③ 평가 방식 선택
모달에서 Metric에 사용할 평가 방식을 선택합니다. 선택 후 생성 화면으로 이동합니다.
- Likert Scale: 1~n과 같은 고정된 척도를 그대로 점수로 사용하는 방식
- G-Eval: 모델이 반환한 점수(1~n)와 해당 점수의 확률을 활용해 기대값 기반으로 최종 점수를 산정하는 방식

2. Rubric(Scale) 설정
① Metric 기본 정보 입력
Metric 이름과 용도를 구분하기 위한 기본 정보를 입력합니다.
Metric Name, Category, Metric Description, Prompt Description 등을 설정합니다.
② 점수 스케일 구성
1~n까지의 점수(Scale)가 자동 생성되며, 각 점수에 대한 설명(루브릭)을 입력합니다.
점수별로 어떤 응답을 어떤 수준으로 평가할지 구체적으로 적어줍니다.
③ Rubric 단계 추가
필요하다면 [+ Add Rubric]을 사용해 점수 단계를 추가할 수 있습니다.
이진 구조(예/아니오)가 아니라 세분화된 평가가 필요할 때 단계 수를 늘립니다.

Rubric 화면 구성 상세 보기
- Metric Name: 생성할 Metric의 이름을 입력합니다.
- Category: Metric을 그룹화하기 위한 카테고리를 설정합니다. 같은 카테고리의 Metric은 대시보드에서 평균 점수 등으로 비교할 수 있습니다.
- Metric Description: 해당 Metric이 무엇을 평가하는지 설명합니다.
- Prompt Description: 평가 기준(루브릭)의 목적과 방향을 설명하며, User Prompt의
{{desc}}로 자동 반영됩니다. - Scale: 점수 스케일을 구성하는 영역입니다. 점수는 1부터 n까지 자동 생성되며, 각 점수에 대한 설명을 입력할 수 있습니다.
- Add Scale: 이진 구조가 아닌 다단계 루브릭이 필요한 경우 점수를 추가합니다.
3. 평가 미리보기 (Run Test)
① 테스트 조건 입력
Evaluation Preview 영역에서 테스트에 사용할 Judge Model을 선택합니다.
Query와 Response를 입력해 실제 평가 상황과 유사한 데이터를 준비합니다.
② Run Test 실행
[Run Test] 버튼을 클릭해 작성한 루브릭이 의도대로 동작하는지 확인합니다.
실행 후 항목별 점수와 평가 사유를 함께 확인할 수 있습니다.
③ 루브릭 재검토
필요하다면 루브릭 내용을 수정한 뒤 다시 Run Test를 실행해, 원하는 평가 기준이 구현될 때까지 반복 검토합니다.


4. Metric 저장 및 활용
① Metric 저장
루브릭 설정과 미리보기를 마쳤다면 [Save] 버튼을 클릭해 Metric을 저장합니다.
② 생성 상태 확인
저장된 Metric은 목록에서 Create 상태로 표시됩니다.
이 상태가 표시되면 Dataset 생성 및 Evaluation Task 설정에서 해당 Metric을 선택해 사용할 수 있습니다.


Metric 생성 (고급 설정 – Use Custom Prompt)
1. Use Custom Prompt
기본 제공 프롬프트만으로는 특정 사용 사례를 충분히 반영하기 어렵거나, 프롬프트를 세밀하게 제어해야 하는 경우가 있습니다.
이럴 때 Use Custom Prompt 기능을 사용해 프롬프트부터 직접 정의된 Metric을 만들 수 있습니다.
Use Custom Prompt는 기본 Metric 생성 흐름에 익숙한 사용자를 위한 고급 옵션입니다.
프롬프트 설계, Judge Model 제어가 필요한 경우에 사용하는 것을 권장합니다.
① Method 선택
새 Metric을 생성할 때, 설정 화면에서 Use Custom Prompt 옵션을 선택합니다.
이 옵션을 활성화하면 Scale, Prompt, Scale Prompt, Evaluation Preview 탭을 중심으로 고급 설정을 진행할 수 있습니다.

- 점수 스케일은 Scale 탭에서 정의되며, Scale Prompt에 자동으로 반영됩니다.
- 점수 스케일과 출력 형식은 시스템에서 고정으로 관리되며 수정할 수 없습니다.
- User Prompt에서 metadata 등 다른 컬럼을 활용하려면
{{컬럼명}}형태로 변수를 입력해 사용할 수 있습니다.

2. 화면 구성별 상세 설명
아래 토글에서 Use Custom Prompt 사용 시 등장하는 각 탭의 전체 화면 구성 요소와 설명을 모두 확인할 수 있습니다.
초보 사용자는 Step을 따라가며 사용하고, 고급 사용자는 토글에서 세부 옵션을 확인할 수 있습니다.
① Scale 탭 상세 설명
Scale 탭에서는 Metric의 기본 정보와 점수 스케일(루브릭)을 설정합니다.
작성한 내용은 Prompt와 평가 수행 과정에 그대로 반영됩니다.
[Scale 탭 입력 항목 설명]
1. Metric Name*
Metric의 이름을 입력합니다.
이름은 Metric 목록, Dataset, Evaluation Task 설정 화면에서 식별자로 사용됩니다.
2. Category*
Metric을 어떤 기준으로 묶을지 카테고리를 설정합니다.
같은 Category로 묶인 Metric은 대시보드에서 평균 점수로 비교할 수 있습니다.
3. Metric Description
이 Metric이 어떤 목적을 가진 지표인지 설명합니다.
평가 결과 상세 화면, 대시보드 정보 패널 등에 표시됩니다.
4. Prompt Description*
평가 기준과 관점을 설명하는 문구입니다.
작성된 문구는 User Prompt의 desc 변수로 자동 연결되며, 모델이 어떤 기준으로 점수를 판단할지 직접적으로 영향을 줍니다.
필수 입력 항목입니다.
5. Scale*
Metric의 점수 단계를 입력하는 영역입니다.
1부터 시작하는 정수 스케일이 자동 생성되며, 각 점수별 세부 설명을 직접 입력해야 합니다.
6. Score Label (자동 표시)
각 점수가 대시보드에서 어떤 수치로 환산되는지를 의미하는 표시값입니다.
(Evaluated as 0.00 형태로 표현되며 입력값은 아님.)
7. Scale Description*
각 점수의 정확한 평가 기준을 작성합니다.
점수 1~n 각각에 대해 입력해야 하며,
작성한 내용은 User Prompt 및 Scale Prompt에 자동 반영됩니다.
8. Add Scale
점수 단계를 추가합니다.
이진 점수(예/아니오)가 아닌 세분화된 다단계 평가가 필요할 때 사용합니다.
② Prompt 탭 상세 설명
Prompt 탭에서는 평가 모델(Judge Model)이 응답을 평가할 때 사용할 System Prompt와
모델에 전달될 실제 평가 지시문인 User Prompt를 직접 작성할 수 있습니다.
-
System Prompt
평가 모델이 어떤 역할과 관점으로 평가를 수행해야 하는지 정의하는 영역입니다.
모델의 페르소나와 판단 기준의 방향성을 지정하는 중요한 설정입니다.[System Prompt 입력 항목 설명]
- 역할(Role) 정의
평가 모델이 어떤 관점·규칙·태도로 평가를 수행해야 하는지 서술합니다.
예: 공정성, 객관성, 특정 기준 준수 등의 역할 지시 - 출력 형식(Output Format) 작성 불필요
System Prompt에는 출력 형식을 별도로 작성하지 않습니다.
출력 형식은 시스템에서 자동으로 생성되며 수정할 수 없습니다. - 반영 위치 및 우선순위
System Prompt는 평가 요청 시 가장 먼저 모델에게 전달되며,
User Prompt보다 높은 우선순위로 적용됩니다.
따라서 평가 모델의 전체적인 행동 원칙을 결정하는 기준이 됩니다. - 예시
You are a fair and objective AI assistant, designed to evaluate text based on a given set of criteria.
- 역할(Role) 정의
-
User Prompt
실제 평가를 수행할 때 사용되는 질문(query), 모델 응답(response), 평가 기준(desc) 등이 포함되는 영역입니다.
{{변수명}}형태의 템플릿 변수를 사용해 데이터셋의 값을 프롬프트에 반영합니다.[User Prompt 입력 항목 설명]
-
역할(Role)
User Prompt는 평가 모델이 실제로 판단해야 하는 데이터와 평가 기준을 전달하는 핵심 영역입니다.
Query, Response, Rubric 등의 값이 이곳에서 설정되며, Evaluation Task 실행 시 그대로 모델에 입력됩니다. -
필수 입력 변수
다음 변수들은 모든 평가에서 반드시 포함되어야 합니다.{{query}}: 평가 대상 질문 데이터{{response}}: 평가할 모델의 응답{{desc}}: Prompt Description을 기반으로 자동 생성되는 루브릭(평가 기준)
-
선택 입력 변수
평가 유형에 따라 포함 여부가 달라지는 선택 항목입니다.{{context}}: 질문 생성 시 참고한 Reference context{{retrieved_context}}: RAG 기반 평가에서 검색된 문서나 추가 정보
-
반영 방식
모든 변수는 데이터셋의 컬럼명 또는 시스템이 제공하는 예약 변수명을 그대로 사용합니다.
입력된 값은 User Prompt 문장 내 위치한 변수에 자동 삽입되어 평가 모델에 전달됩니다. -
작성 예시
### Instruction
Please evaluate the provided "Response to Evaluate" based on the "Query" and the "Evaluation Criteria (Rubric)". If "Retrieved Context" is available, consider it to assess for issues like hallucination.
### Query
{{query}}
### Retrieved Context
{{retrieved_context}}
### Response to Evaluate
{{response}}
### Evaluation Criteria (Rubric)
{{desc}}
-
-
Scale Prompt (수정 불가)
Scale Prompt는 사용자가 직접 작성하지 않는 읽기 전용 영역입니다.
Scale 탭에서 입력한 Prompt Description과 점수 스케일 정보가{{desc}}변수로 묶여
User Prompt에 어떻게 반영되는지 최종 형태로 확인할 수 있습니다.[Scale Prompt 화면 구성 설명]
-
자동 생성 영역
Scale Prompt는 별도로 작성하는 공간이 아니라,
Scale 탭에서 입력한 루브릭 정의(Prompt Description + Score Descriptions)가
시스템에 의해 자동으로 조합되어 표시됩니다. -
수정 불가 구조
Scale Prompt는 실제 프롬프트 구조의 일관성을 유지하기 위해
편집이 불가능하도록 고정된 영역입니다.
오직 확인 기능만 제공하며, 모든 수정은 Scale 탭에서 진행해야 합니다. -
반영 목적
이 탭은 다음을 확인하기 위한 용도로 사용됩니다.- desc 변수에 어떤 루브릭 설명이 포함되는지
- 점수별 스케일 설명이 User Prompt에 어떤 형태로 삽입되는지
- 평가 시 모델에게 전달될 프롬프트의 최종 구성
-
사용자 권장 사항
Scale Prompt는 편집 불가이므로,
루브릭 내용이나 설명을 변경하려면 반드시 Scale 탭에서 수정을 진행한 뒤
이 화면에서 반영 여부를 확인합니다.

-
3. Run Test로 확인
입력한 프롬프트가 정상적으로 작동하는지 확인하려면, Run Test 실행 후 Detail 영역에서
실제 모델에 어떻게 입력되는지 확인할 수 있습니다.
Run Test는 작성한 Metric을 테스트하여 해당 프롬프트와 설정이 의도대로 작동하는지 점검하는 기능입니다.
- 항목별 점수와 함께, 적용된 프롬프트 내용과 모델의 reasoning을 확인할 수 있습니다.
- 프롬프트를 수정하면서 테스트를 반복해볼 수 있습니다.

4. 프롬프트 설정 저장
프롬프트 설정을 완료한 후 Metric을 저장하고, 실제 평가에 사용할 수 있습니다.
저장 후 생성된 Metric은 대시보드에서 확인할 수 있으며, 후속 Evaluation Task에서 재사용할 수 있습니다.

Metric 관리 기능
생성한 Metric을 선택하면 해당 Metric의 상세 페이지로 이동합니다. 이 페이지에서는 다음과 같은 기능을 사용할 수 있습니다.
- Metric 상세 정보 확인
- Preview Run Test 실행
- Metric 삭제
① Metric 상세 화면 안내


② Preview Run Test
각 Metric에 대해 미리보기 평가(Preview Run)를 실행해볼 수 있습니다.
실제 평가 전에 테스트 결과를 확인해, 설정한 평가 기준이 잘 작동하는지 검증할 수 있습니다.

- Run Test 실행 전, 필요한 경우 Metadata 값을 JSON 형식으로 입력해야 합니다.

- Preview Run을 통해 설정한 평가 기준을 실제 모델에 적용해볼 수 있습니다.
평가가 완료된 데이터는 점수뿐 아니라, 데이터 선택 시 세부 평가 사유까지 확인할 수 있습니다.


③ Metric 삭제
생성한 Metric은 목록에서 개별 삭제할 수 있습니다.
삭제된 Metric은 복구할 수 없으나, 이미 수행된 평가 결과에는 영향을 주지 않습니다.
