본문으로 건너뛰기

What is Datumo Eval?


DATUMO Eval은 국내 최초 All-in-One AI 평가 자동화 플랫폼입니다.
질문 생성부터 응답 평가, 결과 시각화까지 모델 배포 전 전 과정을 자동화하여
신뢰할 수 있는 AI 시스템 구축을 체계적으로 지원합니다.


  • AI 서비스의 품질과 안전성을 평가하기 위한 전문 평가 플랫폼
  • 평가 기준 관리부터 결과 분석까지 고급 평가 기능 제공
  • 정량 평가 및 리스크 검증 (Red Teaming) 지원


주요 기능

평가 기준 관리
AI의 품질과 안전성에 대한 최신 평가 기준을 제공합니다.


평가 데이터 생성
솔루션 사용자의 도메인 및 서비스에 부합한 커스텀 평가용 질의를 자동으로 생성합니다.


자동 평가
설정한 평가 기준에 맞춰 평가 데이터에 따른 AI 서비스의 답변을 자동으로 평가합니다.


평가 대시보드
평가 결과를 통해 AI 서비스의 강점과 약점을 진단하고 구체적인 문제 사례와 원인을 찾을 수 있도록 다양한 통계 및 분석 기능을 제공합니다.


레드티밍 (Add-on)
의도적으로 AI 서비스의 취약점을 이끌어낼 수 있는 최신 레드티밍 전략을 10여개 이상 제공하고, Human 및 자동 레드티밍을 지원합니다.




세부 구성

Datumo Eval은 다음의 세가지 핵심 기능 영역으로 구성되어 있습니다:

평가 데이터 생성

AI 평가에 적합한 질문을 문서 기반으로 자동 생성합니다.

  • 단일 청크 기반 질문 생성
  • 도메인 맞춤형 평가 데이터셋 생성

자동 평가

모델 응답을 자동으로 평가하는 핵심 모듈입니다.

  • 다양한 평가 방식 지원 (Likert, And/Or Operation, Weighted Sum 등)
  • 기대 응답 기반의 정밀 비교 평가 (Text Decomposition)
  • 기본 제공 Safety 지표 (Bias, Toxicity, Illegal 등)

평가 대시보드

모델별, 기준별 성능을 시각적으로 분석할 수 있습니다.

  • 기준별/모델별 점수 시각화
  • 메타데이터 기반 필터/분석
  • 응답별 점수 및 사유 확인
  • 문제 응답 직접 비교 분석


Red Teaming (Add-on 기능)

AI의 취약점을 검증할 수 있는 평가 기능입니다.

  • Human Red-Teaming Framwork Tool 지원
  • Automated-Red Teaming 지원


전체 사용 흐름

Datumo Eval은 아래와 같은 흐름으로 평가를 진행합니다:

  A[평가 데이터 업로드] --> B[타겟 모델 설정 및 응답 수집]
B --> C[자동 평가 실행]
C --> D[결과 확인 및 분석 (대시보드)]

평가 유형에 따라 데이터 업로드 방식과 평가 방식은 달라질 수 있습니다.



🚀 Quick Start

기본 설정 가이드

초기 세팅이 필요한 경우 아래 문서부터 시작하세요:

기본 평가 시작하기

기본 설정을 완료하셨다면, 바로 평가를 시작해보세요:

RAG 평가 [Pro]

RAG 평가 기능을 빠르게 사용해보세요:

※ 본 기능은 Pro요금제 이상부터 사용 가능합니다.

Red Teaming [Add-On]

AI 시스템의 취약점을 탐색하는 레드티밍 평가입니다.

※ 본 기능은 Add-On 구매 시 사용 가능합니다.