What is Datumo Eval?
DATUMO Eval은 국내 최초 All-in-One AI 평가 자동화 플랫폼입니다.
질문 생성부터 응답 평가, 결과 시각화까지 모델 배포 전 전 과정을 자동화하여
신뢰할 수 있는 AI 시스템 구축을 체계적으로 지원합니다.
- AI 서비스의 품질과 안전성을 평가하기 위한 전문 평가 플랫폼
- 평가 기준 관리부터 결과 분석까지 고급 평가 기능 제공
- 정량 평가 및 리스크 검증 (Red Teaming) 지원
주요 기능
평가 기준 관리
AI의 품질과 안전성에 대한 최신 평가 기준을 제공합니다.
평가 데이터 생성
솔루션 사용자의 도메인 및 서비스에 부합한 커스텀 평가용 질의를 자동으로 생성합니다.
자동 평가
설정한 평가 기준에 맞춰 평가 데이터에 따른 AI 서비스의 답변을 자동으로 평가합니다.
평가 대시보드
평가 결과를 통해 AI 서비스의 강점과 약점을 진단하고
구체적인 문제 사례와 원인을 찾을 수 있도록 다양한 통계 및 분석 기능을 제공합니다.
레드티밍 (Add-on)
의도적으로 AI 서비스의 취약점을 이끌어낼 수 있는 최신 레드티밍 전략을 10여개 이상 제공하고,
Human 및 자동 레드티밍을 지원합니다.
세부 구성
Datumo Eval은 다음의 세가지 핵심 기능 영역으로 구성되어 있습니다:
평가 데이터 생성
AI 평가에 적합한 질문을 문서 기반으로 자동 생성합니다.
- 단일 청크 기반 질문 생성
- 도메인 맞춤형 평가 데이터셋 생성
자동 평가
모델 응답을 자동으로 평가하는 핵심 모듈입니다.
- 다양한 평가 방식 지원 (Likert, And/Or Operation, Weighted Sum 등)
- 기대 응답 기반의 정밀 비교 평가 (Text Decomposition)
- 기본 제공 Safety 지표 (Bias, Toxicity, Illegal 등)
평가 대시보드
모델별, 기준별 성능을 시각적으로 분석할 수 있습니다.
- 기준별/모델별 점수 시각화
- 메타데이터 기반 필터/분석
- 응답별 점수 및 사유 확인
- 문제 응답 직접 비교 분석
Red Teaming (Add-on 기능)
AI의 취약점을 검증할 수 있는 평가 기능입니다.
- Human Red-Teaming Framwork Tool 지원
- Automated-Red Teaming 지원
전체 사용 흐름
Datumo Eval은 아래와 같은 흐름으로 평가를 진행합니다:
A[평가 데이터 업로드] --> B[타겟 모델 설정 및 응답 수집]
B --> C[자동 평가 실행]
C --> D[결과 확인 및 분석 (대시보드)]
평가 유형에 따라 데이터 업로드 방식과 평가 방식은 달라질 수 있습니다.
🚀 Quick Start
Red Teaming [Add-On]
AI 시스템의 취약점을 탐색하는 레드티밍 평가입니다.
※ 본 기능은 Add-On 구매 시 사용 가능합니다.