본문으로 건너뛰기

Step 2. 자동 평가 실행하기

overview

Evaluation Set은 하나의 모달에서 모든 평가 설정을 연속으로 진행하며, Set 생성 완료와 동시에 평가가 실행됩니다.

전체 흐름은 4단계 순서로 :
Metric 선택 → 평가 모델 설정 → Eval Set Name 입력 → 평가 대상 데이터셋(Response Set) 선택으로 진행됩니다.


2-1. Eval Set 생성 시작

① Add Evaluation Set 버튼 클릭

  • Task 생성 완료 후 「Add Evaluation Set」 버튼 클릭
  • 평가 설정 모달이 열립니다

2-2.Eval Set 평가 설정

① Select Evaluation Metric

평가에 사용할 Metric을 선택합니다:

  • Metric 카테고리 선택: 한 번 선택하면 동일 카테고리의 Metric만 선택 가능
  • 선택한 Metric에 따라 호환되는 모델과 Response Set이 결정됨
동일 카테고리의 Metric만 선택할 수 있습니다.

② Select Evaluation Model

선택한 Metric을 지원하는 평가 모델을 선택합니다:

  • 호환 모델만 표시: 선택한 Metric과 호환되는 모델만 노출
  • Judge Model 선택: GPT-4o, Claude 3.5 등
  • 비호환 모델 선택 시 오류 발생 가능성 안내

③ Set Name

평가를 식별할 이름을 설정합니다:

  • Evaluation Name: 평가 세트 이름 입력
  • Description: 평가 목적이나 특징 설명 (선택사항)

④ Select Response Set

선택한 Metric과 호환되는 Response Set을 선택합니다:

  • 호환 Response Set만 표시: 선택한 Metric과 호환되는 Response Set만 표시됩니다.
  • 현재 선택된 Response Set 개수는 Selected: 0에서 확인할 수 있습니다.

⑤ Complete 실행

모든 설정 완료 후:

  • Complete 버튼 클릭 즉시 평가가 시작됩니다.
  • Eval Set Detail Page로 자동 이동: 평가 진행 상황을 실시간 확인할 수 있습니다.

Evaluation Set에서 평가 관리가 가능합니다.

  • Paused : 평가 paused 버튼을 통하며 평가를 중지하고 중지 된 시점부터 평가를 재시작 할 수 있습니다.
  • Error : 평가 도중 Error 발생 시, 해당 데이터만 평가를 재시도 할 수 있습니다. 에러난 데이터 제외한 다른 데이터는 평가 결과에서 확인 할 수 있습니다.

2-3. 평가 완료

① 평가 완료

  • 평가 완료 시 대시보드에서 바로 확인이 가능하며 전체 완료률소요 시간 도 확인 할 수 있습니다.

💡 평가 진행 팁

1. Dataset 품질 검토

  • 평가 전 반드시 Context와 Query 품질 확인
  • 평가 목적에 맞는 질문 구성 확인

2. Metric 설정 최적화

  • 평가 목적에 맞는 Metric 선택
  • 호환성 확인: 선택한 Metric과 모델, Response Set 호환성
  • Judge Model 성능과 비용 고려

3. 효율적인 평가 실행

  • 소규모 테스트 먼저 진행 후 전체 평가
  • 배치 크기 조정으로 안정성과 속도 균형
  • 오류 발생 시 즉시 원인 파악 및 해결

❓ 자주 묻는 질문 (FAQ)

Q. 평가 중에 중단하면 어떻게 되나요?

A. 평가 도중 중단해도 이미 완료된 결과는 보존됩니다.
중단 시점부터 다시 시작할 수 있으며, 대시보드에서 부분 결과도 확인 가능합니다.

Q. 다른 카테고리의 Metric을 함께 사용할 수 있나요?

A. 한 번 Metric 카테고리를 선택하면 동일 카테고리의 Metric만 추가 가능합니다. 다른 카테고리를 사용하려면 새로운 Evaluation Set을 생성해야 합니다.

Q. 평가 결과를 수정할 수 있나요?

A. 평가 완료 후 개별 결과를 수동으로 수정할 수 있습니다. 자동 평가에서 놓친 부분이나 판단이 애매한 경우 사람이 직접 보정할 수 있습니다.