본문으로 건너뛰기

Eval Dataset

Overview

Datumo에서 "Dataset"은 평가에 사용되는 데이터 구조를 포괄적으로 지칭하는 개념입니다.
다만, 사용 목적에 따라 Dataset은 명확히 구분된 유형으로 관리됩니다.

  • Evaluation Dataset: 모델의 품질을 정량적으로 평가하기 위한 데이터
  • Safety Dataset (Red Teaming Seed): 모델의 취약성을 탐색하기 위한 공격 시나리오 데이터

이 두 Dataset은 구조, 목적, 평가 방식이 서로 다르며 동일한 데이터가 두 평가에 동시에 사용되지는 않습니다.

Datumo Dataset Concept & Structure

Dataset은 Datumo Eval에서 모델이 평가 과정에서 입력으로 받게 되는 Query와 그에 대응하는 기준 응답(Response), 그리고 필요에 따라 Context를 포함하는 구조화된 평가 데이터 집합입니다.
모든 Dataset은 반드시 Query–Response의 1:1 매핑으로 구성되며, RAG 평가처럼 문맥 기반 검증이 필요한 경우에는 참조 문서를 기반으로 Context를 구성하거나, 평가 과정에서 검색된 문맥(retrieved_context)을 메타데이터 형태로 함께 관리할 수 있습니다.
여기서 Context는 Dataset을 생성할 때 평가의 토대가 되는 원본 참조 문서를 의미하며, RAG 시스템의 추론이 실제 근거 문서를 얼마나 충실히 반영하는지 평가하는 데 활용됩니다.

이 구조는 Task 설정부터 모델 실행, 결과 분석에 이르기까지 Datumo Eval의 전 과정에서 일관되게 적용되며, Dataset은 단순한 질문 목록이 아니라 평가 범위가 어디까지 정의되는지, 그리고 어떤 기준으로 모델을 비교할 수 있는지를 결정하는 평가의 핵심 기반이 됩니다.


Dataset의 기본 구조

Datumo Eval의 Dataset은 다음 세 요소로 구성됩니다.

Context

Context는 Dataset을 구축할 때 기반이 되는 원본 문서 또는 텍스트 자료 전체를 의미합니다. 사용자는 특정 문서, 매뉴얼, 규정, 보도자료 등 참조하고자 하는 자료를 Context에 포함시키며, 이후 Query–Response를 구성할 때 이 자료를 근거로 질문과 정답을 생성합니다.

Query

Query는 모델이 실제 평가 시 입력으로 받게 되는 질문·지시문·문제 상황을 표현한 핵심 요소입니다. Dataset의 품질은 대부분 Query 설계에서 결정되며, 질문의 난이도, 유형, 카테고리, 평가 목적이 모두 이 Query에 반영됩니다. 모든 Dataset 항목에는 반드시 하나의 Query가 포함되며, Query의 표현 방식이나 난이도 설계에 따라 모델이 수행해야 하는 추론의 깊이, 지식 요구 수준, 안전성 판단 기준 등이 달라집니다. 평가 과정에서는 각 Query가 Target Model에 전달되고, 해당 모델이 생성한 응답이 정답(Response) 또는 Metric 기준과 비교되어 점수가 산출됩니다.
따라서 Query는 Dataset 전체에서 평가의 출발점이자 평가 품질을 결정하는 가장 중요한 구성 요소입니다.

Response

Response는 Query에 대해 기대되는 기준 응답(정답 또는 모범 답변)을 의미하며, 정답 기반 평가에서 필수적으로 사용됩니다. Datumo Eval의 대부분의 평가—Judgment 평가, Quantitative Metric 기반 평가, RAG 평가—는 모델이 생성한 응답을 이 Response와 비교하여 품질을 판정하기 때문에 Response는 Dataset의 핵심 비교 기준이 됩니다. Response는 단순 텍스트일 수도 있고, 구조적 정보를 포함한 형태일 수도 있으며, 필요에 따라 평가의 관점을 반영하여 “검증 가능한 수준의 기준 답변”으로 작성됩니다. 정답의 품질이 낮으면 평가 신뢰도도 떨어지기 때문에, Response는 Dataset 구성 단계에서 가장 신중하게 구성해야 하는 요소 중 하나입니다.

Metadata (Optional)

Metadata는 Query–Response의 기본 구조 외에 평가 목적에 따라 추가적으로 포함될 수 있는 확장 속성입니다. 이는 단순한 태그 수준을 넘어 특정 Metric 계산이나 분석 과정에서 직접 활용되는 부가 정보를 담을 수 있습니다. 예를 들어 RAG 평가에서는 모델이 검색한 문맥(retrieved_context), 검색 결과의 순위 정보(retrieval rank), 문서 일치도 판단 기준 등 다양한 부가 정보가 Metadata로 저장되며, 이를 통해 모델이 실제 근거 문서를 얼마나 충실히 활용했는지를 정밀하게 검증할 수 있습니다.

Datumo Eval은 Metric이 특정 Metadata를 참조하도록 정의되어 있다면, 해당 Metadata를 평가 엔진에서 직접 활용합니다. 이를 통해 단순한 정답 기반 채점을 넘어 문맥 충실도 검증, 카테고리·난이도 기반 편차 분석, 세그먼트 단위 품질 분석 등 고도화된 평가 방식을 지원할 수 있습니다. Metadata는 평가의 깊이와 정밀도를 확장하는 핵심 요소입니다.


Dataset과 Red Teaming Seed의 차이

Evaluation Dataset과 Red Teaming에서 사용하는 Seed 데이터는
모두 Datumo의 평가 파이프라인에서 사용되지만,
그 목적과 설계 기준은 명확히 구분됩니다.

Evaluation Dataset은 Query–Response 구조를 기반으로
모델의 품질을 정량적으로 비교하고 성능 변화를 추적하기 위한 데이터입니다.

반면, Red Teaming Seed는 모델의 안전성 취약 지점을 탐색하기 위해
공격적 시나리오를 정의한 입력 데이터로,
정답(Response)을 전제로 하지 않습니다.

따라서 두 데이터는 서로를 대체하거나 재사용하는 관계가 아니라,
서로 다른 평가 목적을 위해 설계된 Dataset 유형입니다.


평가 흐름에서 Dataset의 역할

Dataset은 Datumo Eval 평가 파이프라인의 출발점으로, 모델이 어떤 입력을 받고 어떤 기준으로 평가될지를 정의하는 핵심 요소입니다. 평가 과정에서 모델이 생성하는 응답은 모두 Dataset에 포함된 Query–Response 구조를 기준으로 비교·채점되며, 평가 품질의 범위와 정밀도 역시 Dataset이 어떻게 구성되었는지에 의해 결정됩니다.

Dataset에는 Query–Response의 기본 구조 외에도 평가 목적에 따라 다양한 Metadata가 포함될 수 있습니다. Metadata는 카테고리, 난이도, 도메인과 같은 분석용 속성뿐 아니라, RAG 평가에서 활용되는 retrieved_context 등 Metric 계산에 필요한 부가 정보까지 포함하는 확장 필드입니다. Datumo Eval은 이러한 Metadata를 평가 로직에 직접 활용할 수 있어, 단순 정답 비교를 넘어 문맥 일치도, 추론 경로 검증, 위험도 기반 분석처럼 고도화된 평가 방식을 지원합니다.

Task와 Eval Set은 평가를 실행하고 결과를 관리하기 위한 상위 구조이지만, 실제 평가 로직의 기준점은 Dataset이 제공합니다. Eval Set이 생성되어 자동 평가가 수행될 때, Datumo Eval은 Dataset의 각 항목을 순차적으로 참조하여 모델을 실행하고 점수를 산출합니다. 결국 모든 결과 분석—카테고리별 편차, 난이도 기반 오류 패턴, 모델 버전 간 성능 변화—는 Dataset 단위로 이루어지며, Dataset이 전체 평가 해석의 중심축이 됩니다.

이처럼 Dataset은 단순한 질문 모음이 아니라,
평가의 범위·기준·분석 단위를 결정하는 Datumo Eval의 핵심 구조적 기반입니다.