본문으로 건너뛰기

Metrics

Overview

Metric은 AI 모델의 응답 품질을 정량적으로 평가하기 위한 기준입니다.
평가 목적에 적합한 Metric을 설계하는 것은 모델 비교와 성능 분석의 핵심이며,
Datumo Eval에서는 다양한 방식으로 정의된 Metric을 재사용할 수 있도록 지원합니다.


Metric의 개념

Metric은 “무엇을 평가할지”와 “그 기준을 어떻게 점수로 환산할지”를 함께 정의하는 단위입니다.
Rubric이 평가의 내용적 기준을 설명하고, Method가 Rubric 기반 점수를 산정하는 방식(예: Likert, G-Eval)을 결정합니다.
이 구조를 통해 각 Metric은 평가 관점과 계산 방식을 동시에 규정하며, 모델 간 성능 비교가 가능한 정량 평가 체계를 형성합니다.


Metric 구성 요소

Metric은 모델 응답을 어떤 기준으로 평가하고, 그 기준을 어떻게 점수로 산정할지를 함께 정의하는 단위입니다.
Metric은 두 가지 핵심 요소로 구성됩니다.

Rubric은 측정할 평가 기준과 각 점수 구간의 의미를 명확히 기술하며, 평가자가 어떤 관점에서 응답을 판단해야 하는지를 정의합니다.
Method는 Rubric에 따라 산정된 점수를 어떤 규칙으로 계산할지를 결정하는 요소로, Datumo Eval에서는 Likert Scale처럼 점수를 그대로 사용하는 방식과 G-Eval처럼 점수와 확률을 활용해 기대값을 계산하는 방식이 제공됩니다.

Judgment Evaluation에서는 사용자가 정의한 Rubric과 Method가 Judge 모델에 적용되어 응답을 일관된 기준으로 평가하게 됩니다.
자동 Red Teaming이나 RAG Checker와 같은 고정 Metric에서는 미리 정의된 Rubric과 Method가 동일한 형태로 사용되며, 이를 통해 사용자 정의 Metric과 고정 Metric을 통합된 구조로 해석할 수 있습니다.


Metric 범주 예시

Metric은 평가 목적에 따라 다양한 범주로 설계할 수 있으며, Datumo Eval에서는 두 가지 축으로 구분해 이해할 수 있습니다.

자동 평가 방식에서는 Datumo Eval이 고정적으로 제공하는 Metric이 사용됩니다.
예를 들어 자동 Red Teaming에서는 Bias, Illegal 등 안전성 관련 12종 Metric이 기본적으로 적용되며, RAG Checker에서는 F1 Score와 같은 정량 기반 Metric으로 참조 문서와 응답의 일치도를 계산합니다.

반면 루브릭 기반의 Judgment Evaluation에서는 사용자가 직접 Metric을 정의할 수 있습니다.
Faithfulness, Groundedness와 같은 RAG 품질 Metric이나 Coherence, Fluency, Helpfulness 같은 일반 품질 Metric은 평가 목적에 맞게 사용자가 Scale과 Rubric을 설계해 구성하게 됩니다.

이렇듯 고정된 Metric과 사용자 정의 Metric이 함께 구성되어 평가 유형과 목적에 따라 다양한 방식의 Metric 체계를 구축할 수 있습니다.

자세한 Metric 정의, 입력·출력 형태, 정량 평가 기준 등 상세 정보는
Evaluation Metrics 문서를 참고하면 보다 구체적으로 확인할 수 있습니다.


Metric Aggregation에 대한 개념적 이해

여러 Metric을 함께 사용할 경우, 각 Metric의 점수를 어떤 방식으로 해석할지에 대한 개념적 접근이 존재합니다.

일반적으로는 다음과 같은 Score Aggregation 방식이 사용됩니다.
여러 Metric이 모두 기준을 충족해야 하는 AND 방식,
여러 점수를 가중치 기반으로 합산하는 Weighted Sum 방식,
여러 기준 중 하나만 충족해도 되는 OR 방식 등이 대표적인 예입니다.

이러한 접근은 최종 점수를 직접 생성하기 위한 계산 규칙이라기보다,
여러 Metric을 함께 사용할 때 평가 결과를 어떤 관점에서 해석할지에 대한 개념적 프레임워크로 이해할 수 있습니다.
평가 목적이 복합적이거나 여러 기준을 동시에 고려해야 하는 상황에서 유용합니다.


Metric 생성 시 고려사항

Metric은 평가 목적에 적합한 기준으로 구성하는 것이 중요합니다.
Rubric은 점수 기준이 겹치지 않도록 명확하게 작성해야 하며, Method는 평가 목적에 맞는 점수 산정 방식으로 선택합니다.
평가 항목은 필요한 수준에서 최소화하고, 유사한 목적의 Metric은 그룹화하여 관리하면 해석과 유지에 도움이 됩니다.