Terminology

Overview

Datumo Eval에서 사용하는 핵심 용어를 정리한 용어집입니다.

🟦 Generation (데이터 생성)

Context Set

평가 데이터 생성의 기준이 되는 참조 문서 집합

Query Set

평가용 질문 모음

Response Set

모델의 응답 모음

Expected Response

Query에 대한 모범 답안 또는 기준 응답

Ground Truth (GT)

평가 기준이 되는 실제 정답 또는 참값

Metadata

난이도·도메인 등 추가 데이터 속성

Chunk

문서를 분할한 정보 단위

Context

모델에 제공되는 배경 정보 (여러 Chunk의 집합)

Reference Context

데이터 생성 시 기준이 된 원본 Context

Special Query Columns

평가에 사용되는 특수 Query 필드 (`expected_response`, `ground_truth`, `gold_answer`, `reference_context` 등)

Special Response Columns

평가에 사용되는 특수 Response 필드 (`retrieved_context`, `retrieved_chunk`)

🟧 Metric Management (평가지표 정의)

Core Concepts

Rubric

Metric을 구성하는 세부 평가 기준

Judge Prompt

자동 평가(Judge)가 기준을 판단하도록 안내하는 지시문 프롬프트

Required Fields

특정 Metric을 실행하기 위해 업로드 파일에 반드시 포함되어야 하는 필수 데이터 필드

Metric Types

Likert Scale

사람이 직접 점수를 매기는 정성 평가 방식

Traditional Metrics

BLEU, METEOR, TER, ROUGE, BERTScore 등

RAGAS Metrics

RAG 성능 측정 지표(Faithfulness, Answer Relevance 등)

BEIR Metrics

검색 성능 지표(nDCG, Recall, MRR 등)

🟩 Evaluation (평가 실행)

평가 단위

Evaluation Task

특정 평가 목적을 위한 프로젝트 단위

Evaluation Set

Metric/Model/Response로 묶인 실제 평가 실행 단위

평가 유형

Judge Evaluation (저지 평가)

AI Judge를 활용한 자동화된 품질 평가

Human Evaluation (정성 평가)

사람의 판단력을 활용한 주관적 품질 검증

Quantitative Evaluation (정량 평가)

객관적 지표 기반의 수치적 성능 측정

모델 역할

Target Model

성능 평가 대상 모델

Agent

특정 목표를 달성하기 위해 환경과 상호작용하며 행동하는 AI 시스템

Judge Model

자동 평가를 수행하는 모델

Generation Model

Dataset 생성에 사용되는 모델

Embedding Model

RAGAS 평가에 필요한 벡터화를 수행하는 모델

평가 엔진 (Evaluators)

LLM Judge

LLM을 사용해 Metric을 자동 평가하는 엔진

Manual Evaluator

사람이 Rubric 기준으로 평가하는 방식

Algorithmic Evaluator

BLEU·ROUGE 등 알고리즘 기반 평가기

RAGAS Evaluator

RAGAS Metric을 계산하는 평가기

Harness Task

표준화된 벤치마크 데이터셋을 활용하여 LLM 성능을 측정하는 평가

결과 확인

Dashboard

평가 결과를 시각화한 화면

Table View

개별 평가 결과를 보여주는 표

Leaderboard

모델 성능 비교 순위표

RAG Concepts

RAG (Retrieval-Augmented Generation)

검색 증강 생성. 외부 지식 검색을 통해 LLM의 답변 정확도를 높이는 기술

Claim

검증 가능한 사실 단위. LLM을 통해 응답을 Claim 수준으로 분해하여 평가에 활용

Entailment

Claim이 문맥(Passage/Chunk)으로부터 논리적으로 수반되는 관계

Hallucination (환각)

LLM이 사실과 다르거나 근거 없는 정보를 생성하는 현상

🔴 Auto Red-Teaming (자동 안전성 평가)

Strategy

공격 전략·시나리오를 구성하는 상위

Seed Data (시드 데이터)

공격 프롬프트의 주제·상황을 제공하는 평가용 질의 집합

Attack Prompt (공격 프롬프트)

시드와 전략을 결합해 생성된 실제 Target Model 입력 쿼리

Strategy Library

공격 전략을 저장하고 있는 라이브러리

ASR (Attack Success Rate)

공격 성공률. Unsafe로 판정된 응답의 비율

사용자 및 접근 관리

Workspace (워크스페이스)

프로젝트, 데이터셋, 평가 결과 등을 공유하는 협업 공간

Admin

워크스페이스의 관리자. 프로젝트, 데이터셋, 사용자 관리 권한 보유

User

워크스페이스의 일반 멤버. 부여된 권한 범위 내에서 평가 업무 수행

🟦 Generation (데이터 생성)​