Setting Up and Running an Eval Set

Step 2. 자동 평가 실행하기

overview

Evaluation Set은 하나의 모달에서 모든 평가 설정을 연속으로 진행하며, Set 생성 완료와 동시에 평가가 실행됩니다.

전체 흐름은 4단계 순서로 :
Metric 선택 → 평가 모델 설정 → Eval Set Name 입력 → 평가 대상 데이터셋(Response Set) 선택으로 진행됩니다.

2-1. Eval Set 생성 시작

① Add Evaluation Set 버튼 클릭

Task 생성 완료 후 「Add Evaluation Set」 버튼 클릭
평가 설정 모달이 열립니다

2-2.Eval Set 평가 설정

① Select Evaluation Metric

평가에 사용할 Metric을 선택합니다:

Metric 카테고리 선택: 한 번 선택하면 동일 카테고리의 Metric만 선택 가능
선택한 Metric에 따라 호환되는 모델과 Response Set이 결정됨

동일 카테고리의 Metric만 선택할 수 있습니다.

② Select Evaluation Model

선택한 Metric을 지원하는 평가 모델을 선택합니다:

호환 모델만 표시: 선택한 Metric과 호환되는 모델만 노출
Judge Model 선택: GPT-4o, Claude 3.5 등
비호환 모델 선택 시 오류 발생 가능성 안내

③ Set Name

평가를 식별할 이름을 설정합니다:

Evaluation Name: 평가 세트 이름 입력
Description: 평가 목적이나 특징 설명 (선택사항)

④ Select Response Set

선택한 Metric과 호환되는 Response Set을 선택합니다:

호환 Response Set만 표시: 선택한 Metric과 호환되는 Response Set만 표시됩니다.
현재 선택된 Response Set 개수는 Selected: 0에서 확인할 수 있습니다.

⑤ Complete 실행

모든 설정 완료 후:

Complete 버튼 클릭 즉시 평가가 시작됩니다.
Eval Set Detail Page로 자동 이동: 평가 진행 상황을 실시간 확인할 수 있습니다.

Evaluation Set에서 평가 관리가 가능합니다.

Paused : 평가 paused 버튼을 통하며 평가를 중지하고 중지 된 시점부터 평가를 재시작 할 수 있습니다.
Error : 평가 도중 Error 발생 시, 해당 데이터만 평가를 재시도 할 수 있습니다. 에러난 데이터 제외한 다른 데이터는 평가 결과에서 확인 할 수 있습니다.

2-3. 평가 완료

① 평가 완료

평가 완료 시 대시보드에서 바로 확인이 가능하며 전체 완료률 및 소요 시간 도 확인 할 수 있습니다.

💡 평가 진행 팁

1. Dataset 품질 검토

평가 전 반드시 Context와 Query 품질 확인
평가 목적에 맞는 질문 구성 확인

2. Metric 설정 최적화

평가 목적에 맞는 Metric 선택
호환성 확인: 선택한 Metric과 모델, Response Set 호환성
Judge Model 성능과 비용 고려

3. 효율적인 평가 실행

소규모 테스트 먼저 진행 후 전체 평가
배치 크기 조정으로 안정성과 속도 균형
오류 발생 시 즉시 원인 파악 및 해결

❓ 자주 묻는 질문 (FAQ)

Q. 평가 중에 중단하면 어떻게 되나요?

A. 평가 도중 중단해도 이미 완료된 결과는 보존됩니다.
중단 시점부터 다시 시작할 수 있으며, 대시보드에서 부분 결과도 확인 가능합니다.

Q. 다른 카테고리의 Metric을 함께 사용할 수 있나요?

A. 한 번 Metric 카테고리를 선택하면 동일 카테고리의 Metric만 추가 가능합니다. 다른 카테고리를 사용하려면 새로운 Evaluation Set을 생성해야 합니다.

Q. 평가 결과를 수정할 수 있나요?

A. 평가 완료 후 개별 결과를 수동으로 수정할 수 있습니다. 자동 평가에서 놓친 부분이나 판단이 애매한 경우 사람이 직접 보정할 수 있습니다.

Step 2. 자동 평가 실행하기​

2-1. Eval Set 생성 시작​

① Add Evaluation Set 버튼 클릭​

2-2.Eval Set 평가 설정​

① Select Evaluation Metric​

② Select Evaluation Model​

③ Set Name​

④ Select Response Set​

⑤ Complete 실행​

2-3. 평가 완료​

① 평가 완료​

💡 평가 진행 팁​

1. Dataset 품질 검토​

2. Metric 설정 최적화​

3. 효율적인 평가 실행​

❓ 자주 묻는 질문 (FAQ)​

Q. 평가 중에 중단하면 어떻게 되나요?​

Q. 다른 카테고리의 Metric을 함께 사용할 수 있나요?​

Q. 평가 결과를 수정할 수 있나요?​