본문으로 건너뛰기

Welcome to Datumo Eval

DATUMO Eval은 LLM 기반 AI 서비스의 품질·신뢰성·안전성 평가를 자동화하는 엔드투엔드 AI 신뢰성 검증 플랫폼입니다.
도메인 맞춤형 평가 질의 생성부터 자동 평가, 결과 분석, 레드티밍까지 AI 모델 검증의 전 과정을 일관된 워크플로우로 제공합니다.

Datumo Eval 시작하기

Datumo Eval이 처음이신가요? 아래 가이드를 통해 빠르게 시작할 수 있습니다.


Why Datumo Eval?

  • 평가 데이터셋 자동 생성
    문서를 입력하면 Query 또는 Expected Response를 자동 생성해 평가 준비 시간을 크게 줄일 수 있습니다.

  • 평가지표 제공 / 커스텀 평가지표 생성
    Safety, RAG 품질, Faithfulness 등 기본 제공 Metric을 바로 사용할 수 있으며, 도메인 맞춤형 평가지표를 직접 설계할 수 있습니다.

  • 자동·정성·정량 평가 실행
    정성 평가(휴먼 리뷰), 정량 평가(알고리즘 기반), 자동 평가(LLM Judge) 등의 다양한 평가 시나리오를 Datumo에서 처리할 수 있습니다.

  • Claim 단위 사실성·RAG 품질 평가
    응답을 Claim 단위로 분해하여 사실성(Factuality)과 RAG 품질을 정밀하게 검증할 수 있습니다.

  • 자동 레드티밍 기반 안전성 평가
    자동 생성된 공격 프롬프트를 활용해 모델의 안전성 위반 가능성을 테스트할 수 있으며, Judge Prompt 기반으로 반복적이고 일관된 Safety 평가를 수행할 수 있습니다.


Feature Overview

Explore the Docs