본문으로 건너뛰기

Step 2. Eval Set 생성 및 평가 실행

2-1) 평가 준비

① Evaluation Set 생성 진입

생성된 Task 클릭 → 상단 탭에서 [Evaluation Set] 선택 [+ Add Evaluation Set] 버튼 클릭

② 평가 지표(Evaluation Metric) 선택

Answer Correctness, Groundedness, Response Relevancy 등 원하는 RAGAs Metric 선택
⚠️ 각 Metric별로 요구하는 컬럼이 다르므로, Response Dataset은 대응되는 컬럼이 포함되어야 선택 가능

ⓘ 아이콘에 마우스를 올리면 해당 매트릭에 대한 상세한 설명을 확인할 수 있습니다

③ 평가 모델(Evaluation Model) 선택

평가를 진행할 모델을 선택합니다.
예: GPT-4o-mini, GPT-4 등 (선택한 Metric 지원 모델만 선택 가능)

④ Evaluation Set 정보 입력

  • Evaluation Set 이름과 설명 입력
  • (필요 시) Embedding Model 정보 입력
    ※ Embedding Model 필요 Metric: Answer Correctness, Response Relevancy, Semantic Similarity

⑤ Response Set 선택

평가할 Response Dataset 체크박스로 선택

⑥ Evaluation Set 생성 완료

[Complete] 버튼 클릭 → Evaluation Set 생성 및 실행 시작


2-2) 평가 진행 확인 및 관리

⑦ 진행 상태 확인

[Evaluation Set] 리스트에서 평가 진행 상황 확인 가능

⑧ 세부 평가 진행 상태 확인

[View Detail] 클릭 → Response Set별 상세 평가 진행상황 확인 가능

평가가 완료되면 대시보드에서 결과를 확인할 수 있습니다: