TutorialsEvaluationJudgment Evaluation📊 Evaluation TaskEvaluation Task Datumo Eval에서 가장 기본이 되는 평가 워크플로우입니다. Judge 평가 모델을 활용해 Target 모델의 응답을 비교·평가하며, Dataset 기반으로 모델 성능을 수치화할 수 있습니다. Task 생성새로운 Evaluation Task를 생성합니다.Eval Set 실행Eval Set을 생성하고 평가를 실행합니다.평가 결과 확인대시보드에서 평가 결과를 확인하고 분석합니다.BEIR LeaderboardBEIR Leaderboard 뷰에서 결과를 확인합니다.