Judge Evaluation

Datumo Eval의 자동평가 프레임워크입니다. Judge 평가 모델을 활용해 Target 모델의 응답을 비교·평가하며, Dataset 기반으로 모델 성능을 수치화할 수 있습니다.

평가 지표를 활용하여 AI 모델의 성능을 평가하고 결과를 확인합니다.

RAGAs 기반 평가로 생성된 응답과 검색된 문맥을 자동 평가합니다.