Judgment Evaluation Overview

Datumo Eval의 자동평가 프레임워크입니다.
실제 제공되는 기능은 상이할 수 있으며 Evaluation Task, RAGAs Task, RAG Checker, Auto-Red Teaming 총 4가지로 구성되어 있습니다.

🗃️ 📊 Evaluation Task

7 항목

🗃️ 🌐 RAGAs Task

4 항목

🗃️ ✅ RAG Checker

3 항목

🗃️ 🚨 Automated Red Teaming.

2 항목

1. Evaluation Task

Evaluation Task는 Datumo Eval에서 가장 핵심이 되는 기 평가 워크플로우입니다.

평가 지표를 활용하여 AI 모델의 성능을 평가하고, 결과를 대시보드에서 확인·분석할 수 있습니다.

Evaluation Task의 세부기능

Evaluation Task별 평가 : 평가를 실행하는 프로세스로, 각 Task를 만들어 성능을 확인 가능
Evaluation Set 관리 : 평가에 사용할 데이터 모음을 관리하며, Evaluation Set별로 평가 중지/재시작 가능
평가 대시보드 : Dashboard를 통하여 전체 평가 결과를 시각적으로 확인하고 비교 가능
평가 세부결과 : 질문별·항목별로 상세 성능 결과 확인 가능

2. RAGAs Task

Datumo에서는 RAGAs 기반 평가 기능을 제공하여, 생성된 응답과 검색된 문맥을 RAGAs metric으로 자동 평가하고 수치화할 수 있습니다.

3. RAG Checker

평가용 질문에 대한 ER(Expected Response)을 기반으로 RAG 시스템의 응답을 평가합니다. 모범 답안 역할을 하는 E R 내 주장들이 검색된 문서(Context) 및 RAG 시스템의 응답 내 포함되어 있는지 여부를 측정하여 RAG 시스템의 Generator 모듈 및 Retriever 모듈의 성능을 각각 평가합니다.

3. Auto Red-teaming

전략을 모아놓은 라이브러리를 활용하여 공격 프롬프트를 자동으로 생성하고, 이를 통해 AI 모델의 안전성과 취약성을 평가하는 자동화된 레드팀 시스템입니다.