본문으로 건너뛰기

Evaluation Features

Overview

이 문서는 저지평가(Judge Evaluation), 정성평가(Human Evaluation), 정량평가(Quantitative Evaluation) 기능을 개념적으로 이해하기 위한 안내 페이지입니다


평가 방식 (Evaluation Modes)

Datumo Eval은 크게 세 가지 평가 방식으로 구성됩니다.
각 평가 방식은 독립적으로 사용하거나, 조합하여 모델 품질을 다각도로 검증할 수 있습니다.

1. 저지 평가 Judgment Evaluation

AI Judge 모델이 Query–Response를 자동으로 분석해 품질을 판단하는 방식입니다.
대규모 자동화가 가능하며 사람 수준의 판단력을 최대한 모방하도록 설계되어 있습니다.

  • Evaluation Task는 Datumo Eval의 대표적인 저지평가 기능입니다.
    LLM이 생성한 응답을 LLM이 평가하는 LLM-as-a-Judge 방식을 채택하며,
    LLM 평가 기준이 아직 업계 표준으로 정립되지 않았기 때문에
    사용자가 평가 기준에 맞는 Judge Model을 직접 선택할 수 있습니다.

    동일한 Judge Model로 여러 Target Model을 평가하면 공정한 비교가 가능하고,
    Judge Model을 변경해 실행하면 기준 차이에 따른 편향도 분석할 수 있습니다.
    평가는 Task 단위로 진행되며 Evaluation Set 관리·대시보드 비교를 통해
    모델 간 성능을 종합적으로 확인할 수 있습니다.

  • RAGAs Task는 RAG 시스템을 위한 자동 평가 기능으로,
    검색된 문맥과 생성 응답의 관계를 다양한 지표로 측정합니다.

  • RAG Checker는 Expected Response(모범 답안)를 기준으로
    Claim 단위 Fact 검증을 수행합니다.
    Claim이 문맥에 포함되는지, 모델 응답에 재현되는지를 구분해 측정하여
    RAG 시스템의 정보 누락·왜곡 문제를 정밀하게 분석합니다.

  • Auto Red-Teaming은 다양한 공격 프롬프트를 자동 생성해
    모델의 안전성 위반 가능성을 반복적으로 탐지하는 기능입니다.
    일반적인 Safety 평가만으로는 드러나기 어려운 취약점을 확인할 수 있습니다.

2. 정성 평가 Human Evaluation

정성평가는 사람이 직접 응답 품질을 판단하는 방식으로, 자동화하기 어려운 뉘앙스·창의성·표현 품질을 평가할 때 사용합니다.

  • Manual Evaluation에서는 사전 정의한 루브릭을 기준으로
    평가자가 응답을 세부 항목별로 검토하고 점수를 부여합니다.

  • Interactive Evaluation은 모델과 직접 대화하며
    즉시 Good/Bad 피드백을 남기거나 Ground Truth 초안을 작성하는 방식입니다.

3. 정량 평가 Quantitative Evaluation

정량평가는 표준 벤치마크 데이터셋과 NLP 기반 메트릭을 활용해 모델 성능을 객관적으로 비교·분석하는 기능입니다.

  • Harness Task는 HRM8K, KMMLU, KOBEST 등
    표준 벤치마크를 바탕으로 모델의 지식·추론·문제 해결 능력을 평가합니다.
    결과는 리더보드 형태로 제공되어 객관적 비교가 가능합니다.

  • Reference-based Evaluation
    모델 응답을 기준 답변(Ground Truth)과 비교해 유사도를 정량 측정합니다. BLEU, ROUGE, METEOR, TER, BERTScore와 같은 NLP 메트릭을 활용해 번역·요약·문서 생성 품질을 평가합니다.


평가 기능 요약

Datumo Eval의 모든 평가 기능은 저지평가 – 정성평가 – 정량평가 세 가지 방식으로 구분됩니다.
각 기능의 사용법은 튜토리얼에서 확인할 수 있습니다.