Overview | Datumo Eval Docs

Evaluation Task

📊 Basic Evaluation Flow

Evaluation Task는 Datumo Eval에서 가장 기본이 되는 평가 워크플로우입니다.
Judge 평가 모델을 활용해 Target 모델의 응답을 비교·평가하며, Dataset 기반으로 모델 성능을 수치화할 수 있습니다.

전체 Flow는 다음과 같습니다:

신규 evaluation Task를 생성합니다.

Eval Set을 생성해 조건을 설정하고 평가를 실행합니다.

Dashboard와 Table View로 평가 결과를 확인합니다.

Judge 평가와 함께 BEIR 벤치마크 평가를 수행하고 결과를 리더보드에서 확인합니다.

Task 단위로 관리합니다. llm평가 진행 중 평가를 중지·재시작하거나 이름 및 설명을 수정 할 수 있습니다.

평가 결과를 수정할 수 있습니다.

Judgement Evaluation을 자동으로 예약 실행할 수 있는 기능입니다.