Step 2. Eval Set 생성 및 평가 실행
2-1) 평가 준비
① Evaluation Set 생성 진입
생성된 Task 클릭 → 상단 탭에서 [Evaluation Set] 선택 [+ Add Evaluation Set] 버튼 클릭
② 평가 지표(Evaluation Metric) 선택
Answer Correctness, Groundedness, Response Relevancy 등 원하는 RAGAs Metric 선택
⚠️ 각 Metric별로 요구하는 컬럼이 다르므로, Response Dataset은 대응되는 컬럼이 포함되어야 선택 가능
ⓘ 아이콘에 마우스를 올리면 해당 매트릭에 대한 상세한 설명을 확인할 수 있습니다
③ 평가 모델(Evaluation Model) 선택
평가를 진행할 모델을 선택합니다.
예: GPT-4o-mini, GPT-4 등 (선택한 Metric 지원 모델만 선택 가능)
④ Evaluation Set 정보 입력
- Evaluation Set 이름과 설명 입력
- (필요 시) Embedding Model 정보 입력
※ Embedding Model 필요 Metric: Answer Correctness, Response Relevancy, Semantic Similarity
⑤ Response Set 선택
평가할 Response Dataset 체크박스로 선택
⑥ Evaluation Set 생성 완료
[Complete] 버튼 클릭 → Evaluation Set 생성 및 실행 시작
2-2) 평가 진행 확인 및 관리
⑦ 진행 상태 확인
[Evaluation Set] 리스트에서 평가 진행 상황 확인 가능
⑧ 세부 평가 진행 상태 확인
[View Detail] 클릭 → Response Set별 상세 평가 진행상황 확인 가능
평가가 완료되면 대시보드에서 결과를 확인할 수 있습니다:
