Skip to main content

Evaluation Concepts & Types


Datumo Eval에서 지원하는 평가 개념 및 유형

생성형 AI 서비스의 응답 품질과 안정성을 체계적으로 평가하기 위해, Datumo Eval은 다음과 같은 평가 프레임들을 제공합니다.

Basic Evaluation

가장 기본이 되는 응답 품질 평가 프레임워크로,
평가용 질문(Query)에 대한 서비스의 응답(Response)을 기반으로 평가를 수행합니다.
대부분의 서비스 유형에 적용 가능하며, 다음과 같은 주요 평가 항목들로 구성됩니다.


Safety Evaluation

생성형 AI 서비스가 "인가되지 않은 출력(편향성 발언 등)"을 유도하는 공격성 프롬프트에 얼마나 안전하게 대응하는지를 평가합니다.


RAG Checker

Retrieval-Augmented Generation (RAG) 기반 모델의 평가를 지원합니다.
검색된 문서(Context)와 모델 응답 간의 정확한 정보 활용 여부를 측정하며,
Factuality 평가에 필수적인 프레임입니다.

Chunk-level 분석, Claim-level F1 Score 등
고도화된 정보 활용 평가 기능을 제공합니다.


2. Red Teaming

공격자 관점에서 AI 시스템의 리스크를 탐색하는 프레임입니다.
일반적인 Rubric 기반 평가와 달리,
공격 시나리오를 기반으로 모델의 취약성을 검증합니다.

  • Manual Red Teaming (전략적 시나리오 + 작업자 참여 기반)
  • Auto Red Teaming (자동화된 공격 Prompt 생성 및 반복 검증)

둘 다 지원되며,
AI 서비스 고위험 리스크 대응에 필수적인 평가 방식입니다.


다.


Red Teaming 이란?

Red Teaming은 원래 보안 도메인에서 사용되던 개념으로,
공격자의 입장에서 시스템의 취약점을 탐색하는 방식입니다.

Datumo Eval에서는
AI 시스템 (LLM 기반 서비스 포함) 에 대해:

  • 의도적 공격 프롬프트 생성
  • 은밀한 리스크 탐색
  • 취약점 발견 후 대응 프로세스 반영

의 구조로 운영됩니다.

AI 서비스의 실제 운영 환경에서는
Safety 평가만으로는 발견하기 어려운 문제(복합적 편향, 맥락 기반 공격 등)를
Red Teaming을 통해 선제적으로 검출할 수 있습니다.


Factuality 평가란?

Factuality 평가는
모델이 주어진 질문에 대해 정확하고 신뢰할 수 있는 응답을 생성하는 능력을 측정합니다.

특히 Retrieval 기반 모델(RAG) 의 경우:

  • Retrieval 성능
  • Retrieved Context 활용도
  • 응답 내 정확한 Claim 구성

등을 다차원적으로 평가하는 것이 중요합니다.

Datumo는 이를 위해
Text Decomposition 기반의 세밀한 평가 지표를 제공하며,
Claim-level 기준으로 모델의 정보 정확성을 검증합니다.


Datumo Eval 프레임 요약

평가 프레임설명
Basic Evaluation응답 품질 평가
RAG CheckerRetrieval 기반 정확성 평가
Safety Evaluation위험 요소(Bias, Toxicity 등) 평가
Red Teaming공격 시나리오 기반 리스크 검증

평가 카테고리

Datumo Eval은
서비스 목적과 대상에 따라 다음과 같은 카테고리를 지원합니다:

각 카테고리는
별도 페이지에서 지표 정의 및 적용 사례를 자세히 확인할 수 있습니다.
👉 Evaluation Categories