Terminology
Datumo Eval에서 사용하는 핵심 용어를 정리한 용어집입니다.
🟦 Generation (데이터 생성)
Context Set
평가 데이터 생성의 기준이 되는 참조 문서 집합
Query Set
평가용 질문 모음
Response Set
모델의 응답 모음
Expected Response
Query에 대한 모범 답안 또는 기준 응답
Ground Truth (GT)
평가 기준이 되는 실제 정답 또는 참값
Metadata
난이도·도메인 등 추가 데이터 속성
Chunk
문서를 분할한 정보 단위
Context
모델에 제공되는 배경 정보 (여러 Chunk의 집합)
Reference Context
데이터 생성 시 기준이 된 원본 Context
Special Query Columns
평가에 사용되는 특수 Query 필드 (`expected_response`, `ground_truth`, `gold_answer`, `reference_context` 등)
Special Response Columns
평가에 사용되는 특수 Response 필드 (`retrieved_context`, `retrieved_chunk`)
🟧 Metric Management (평가지표 정의)
Core Concepts
Rubric
Metric을 구성하는 세부 평가 기준
Judge Prompt
자동 평가(Judge)가 기준을 판단하도록 안내하는 지시문 프롬프트
Required Fields
특정 Metric을 실행하기 위해 업로드 파일에 반드시 포함되어야 하는 필수 데이터 필드
Metric Types
Likert Scale
사람이 직접 점수를 매기는 정성 평가 방식
Traditional Metrics
BLEU, METEOR, TER, ROUGE, BERTScore 등
RAGAS Metrics
RAG 성능 측정 지표(Faithfulness, Answer Relevance 등)
BEIR Metrics
검색 성능 지표(nDCG, Recall, MRR 등)
🟩 Evaluation (평가 실행)
평가 단위
Evaluation Task
특정 평가 목적을 위한 프로젝트 단위
Evaluation Set
Metric/Model/Response로 묶인 실제 평가 실행 단위
평가 유형
Judge Evaluation (저지 평가)
AI Judge를 활용한 자동화된 품질 평가
Human Evaluation (정성 평가)
사람의 판단력을 활용한 주관적 품질 검증
Quantitative Evaluation (정량 평가)
객관적 지표 기반의 수치적 성능 측정
모델 역할
Target Model
성능 평가 대상 모델
Agent
특정 목표를 달성하기 위해 환경과 상호작용하며 행동하는 AI 시스템
Judge Model
자동 평가를 수행하는 모델
Generation Model
Dataset 생성에 사용되는 모델
Embedding Model
RAGAS 평가에 필요한 벡터화를 수행하는 모델
평가 엔진 (Evaluators)
LLM Judge
LLM을 사용해 Metric을 자동 평가하는 엔진
Manual Evaluator
사람이 Rubric 기준으로 평가하는 방식
Algorithmic Evaluator
BLEU·ROUGE 등 알고리즘 기반 평가기
RAGAS Evaluator
RAGAS Metric을 계산하는 평가기
Harness Task
표준화된 벤치마크 데이터셋을 활용하여 LLM 성능을 측정하는 평가
결과 확인
Dashboard
평가 결과를 시각화한 화면
Table View
개별 평가 결과를 보여주는 표
Leaderboard
모델 성능 비교 순위표
RAG Concepts
RAG (Retrieval-Augmented Generation)
검색 증강 생성. 외부 지식 검색을 통해 LLM의 답변 정확도를 높이는 기술
Claim
검증 가능한 사실 단위. LLM을 통해 응답을 Claim 수준으로 분해하여 평가에 활용
Entailment
Claim이 문맥(Passage/Chunk)으로부터 논리적으로 수반되는 관계
Hallucination (환각)
LLM이 사실과 다르거나 근거 없는 정보를 생성하는 현상
🔴 Auto Red-Teaming (자동 안전성 평가)
Strategy
공격 전략·시나리오를 구성하는 상위
Seed Data (시드 데이터)
공격 프롬프트의 주제·상황을 제공하는 평가용 질의 집합
Attack Prompt (공격 프롬프트)
시드와 전략을 결합해 생성된 실제 Target Model 입력 쿼리
Strategy Library
공격 전략을 저장하고 있는 라이브러리
ASR (Attack Success Rate)
공격 성공률. Unsafe로 판정된 응답의 비율
사용자 및 접근 관리
Workspace (워크스페이스)
프로젝트, 데이터셋, 평가 결과 등을 공유하는 협업 공간
Admin
워크스페이스의 관리자. 프로젝트, 데이터셋, 사용자 관리 권한 보유
User
워크스페이스의 일반 멤버. 부여된 권한 범위 내에서 평가 업무 수행