Running Evaluuation

평가 실행 페이지에서는 생성한 데이터셋을 기반으로 타겟 모델과 평가 모델을 선택하여 자동 평가를 진행하는 방법을 안내합니다. 업로드한 데이터 유형에 따라 평가 화면은 조금씩 다를 수 있지만, 이 문서에서는 공통된 절차만 설명합니다.

데이터셋 생성이 완료되면 Evaluate Dataset 버튼을 클릭해 평가를 요청할 수 있습니다.

평가 시작 버튼을 누르면 모델 선택 모달이 열립니다.
평가에 사용할 Target Model과 Evaluation Model을 선택해 주세요.
업로드한 데이터 유형(Upload Type)에 따라 선택 가능한 모델 수와 조건이 달라집니다.

모델 다중 선택 화면

모델 단일 선택 화면

Upload Type: Query + Response Upload
Target Model과 Evaluation Model은 각각 1개만 선택할 수 있습니다.
Target Model은 실제 API 와 연결되지 않았더라도 이름만 등록된 모델을 설정하여 평가에 사용할 수 있습니다. (예: 휴먼분석 Model2018)

평가 플로우별 모델 선택 조건

업로드 유형	Target Model (답변 생성 모델)	Evaluation Model (평가 모델)
Query Generation, Query Upload	다중 선택 가능 - 실제 응답 생성 가능한 모델 (API 유효성 검사 통과)	다중 선택 가능
Query + Response Upload	단일 선택 - 이름만 등록된 모델 사용 가능 (예: 휴먼 생성)	단일 선택

평가 실행 후에는 상세한 진행 상황을 확인할 수 있으며, 오류 발생 시 원인을 확인하고 평가 재시도 할 수 있습니다.

View Detail기능을 이용하면 현재 평가 진행 상황을 시작시간, 평가 진행 시간, 데이터셋 매트릭 및 데이터 수량, 데이터 상태 등 확인 가능
오류 발생 시 오류 원인을 확인 후 Retry로 재평가 가능