Welcome to Datumo Eval

DATUMO Eval은 LLM 기반 AI 서비스의 품질·신뢰성·안전성 평가를 자동화하는 엔드투엔드 AI 신뢰성 검증 플랫폼입니다.
도메인 맞춤형 평가 질의 생성부터 자동 평가, 결과 분석, 레드티밍까지 AI 모델 검증의 전 과정을 일관된 워크플로우로 제공합니다.

Datumo Eval 시작하기

Datumo Eval이 처음이신가요? 아래 가이드를 통해 빠르게 시작할 수 있습니다.

평가 데이터셋 자동 생성
문서를 입력하면 Query 또는 Expected Response를 자동 생성해 평가 준비 시간을 크게 줄일 수 있습니다.
평가지표 제공 / 커스텀 평가지표 생성
Safety, RAG 품질, Faithfulness 등 기본 제공 Metric을 바로 사용할 수 있으며, 도메인 맞춤형 평가지표를 직접 설계할 수 있습니다.
자동·정성·정량 평가 실행
정성 평가(휴먼 리뷰), 정량 평가(알고리즘 기반), 자동 평가(LLM Judge) 등의 다양한 평가 시나리오를 Datumo에서 처리할 수 있습니다.
Claim 단위 사실성·RAG 품질 평가
응답을 Claim 단위로 분해하여 사실성(Factuality)과 RAG 품질을 정밀하게 검증할 수 있습니다.
자동 레드티밍 기반 안전성 평가
자동 생성된 공격 프롬프트를 활용해 모델의 안전성 위반 가능성을 테스트할 수 있으며, Judge Prompt 기반으로 반복적이고 일관된 Safety 평가를 수행할 수 있습니다.

모델 성능을 종합적으로 시각화하여 버전별 평가 점수, 강점, 약점 지표를 한눈에 파악할 수 있습니다.

실제 서비스와 동일한 질의를 생성하고 모델 응답을 체계적으로 관리합니다.

CSV/Excel 업로드로 데이터셋을 생성·버전 관리합니다.

사전 정의된 규칙과 평가 지표로 수백, 수천 개의 응답을 빠르게 자동 채점합니다.
대규모 반복 평가를 효율적이고 일관되게 수행할 수 있습니다.

루브릭 기반 평가로 사람이 직접 응답 품질을 검토하거나, AI와 실시간 대화하며 모델의 응답 품질을 평가할 수 있습니다.

표준 벤치마크 데이터셋과 레퍼런스 기반 메트릭을 활용해 모델 성능을 자동으로 정량 평가합니다.

모델 연결과 맞춤형 지표 정의를 지원하며, 권한 관리를 통해 안전한 평가 워크플로우를 운영합니다.