Step 2. Eval Set 생성 및 평가 실행

생성된 Task 클릭 → 상단 탭에서 [Evaluation Set] 선택 [+ Add Evaluation Set] 버튼 클릭

Answer Correctness, Groundedness, Response Relevancy 등 원하는 RAGAs Metric 선택
⚠️ 각 Metric별로 요구하는 컬럼이 다르므로, Response Dataset은 대응되는 컬럼이 포함되어야 선택 가능

ⓘ 아이콘에 마우스를 올리면 해당 매트릭에 대한 상세한 설명을 확인할 수 있습니다

평가를 진행할 모델을 선택합니다.
예: GPT-4o-mini, GPT-4 등 (선택한 Metric 지원 모델만 선택 가능)

Evaluation Set 이름과 설명 입력
(필요 시) Embedding Model 정보 입력
※ Embedding Model 필요 Metric: Answer Correctness, Response Relevancy, Semantic Similarity

평가할 Response Dataset 체크박스로 선택

[Complete] 버튼 클릭 → Evaluation Set 생성 및 실행 시작

[Evaluation Set] 리스트에서 평가 진행 상황 확인 가능

[View Detail] 클릭 → Response Set별 상세 평가 진행상황 확인 가능

평가가 완료되면 대시보드에서 결과를 확인할 수 있습니다: