Step 3. 평가 결과 확인
평가가 완료되면 Task에 진입하여 결과를 확인할 수 있습니다.
가장 먼저 Dashboard가 표시되어 다양한 시각화 도구로 모델 성능을 비교하고 주요 인사이트를 얻을 수 있으며,
Table View를 통해 개별 샘플 단위의 상세한 평가 결과를 분석할 수 있습니다.
3-1) Dashboard 화면
Dashboard는 완료된 평가 결과만을 시각화하여 제공합니다.
Evaluation Task에서는 다양한 Category와 Metric으로 구성되어 있어, Category별 성능 비교와 Metric별 세부 분석이 주요 분석 축이 됩니다.

Dashboard 주요 구성
① Category & Metric 비교
카테고리별 평가 성능과 세부 지표별 모델 성능을 종합적으로 비교할 수 있습니다.
② Evaluation Result 세부 분석
점수 분포, Rubric별 세부 결과, 카테고리별 성능 패턴을 다양한 시각화로 제공합니다.
① 시각화 유형별 특징
Dashboard에서는 Metric 결과를 두 가지 차트 형태로 확인할 수 있습니다.

모델별 Metric 성능을 막대그래프로 표시하여 지표별 성능 차이를 직관적으로 비교할 수 있습니다.

여러 Metric을 동시에 표시하여 모델 간 성능 패턴과 강약점을 한눈에 파악할 수 있습니다.
② Metric 비교 차트
RAGAs 카테고리 내 각 Metric 성능을 모델별로 비교하여 지표별 점수를 통해 모델 간 강점과 약점을 파악할 수 있습니다.


③ 세부 분석 시각화
모델별로 특정 Metric의 점수 분포를 다양한 시각화로 제공하며, Rubric별 세부 결과도 확인하여 평가 결과를 정밀하게 분석할 수 있습니다.

모델별 점수 분포를 시각화하여 성능 편차나 데이터 특성에 따른 차이를 분석할 수 있습니다.

특정 Rubric별로 모델 간 점수를 비교하여 세부 항목별 강점과 약점을 명확하게 확인할 수 있습니다.

Metadata를 기반으로 Score Heatmap을 제공하여 데이터 타입이나 상황별 성능 변화를 쉽게 확인할 수 있습니다.
3-2) Table View 화면
Table View는 Dashboard에서 확인한 결과를 세부적으로 분석할 수 있는 상세 화면입니다. 상단 탭을 통해 직접 이동하거나, Dashboard 그래프 클릭 시 해당 정보가 자동으로 필터링되어 세부 데이터를 확인할 수 있습니다.
④ 탭 구조
Table View는 세 가지 탭으로 구성되어 각기 다른 관점에서 평가 결과를 확인할 수 있습니다.
- Compare Model: 여러 모델의 응답과 점수를 나란히 비교하여 동일한 질문에 대한 모델별 성능을 확인합니다.
- Compare Metric: 평가지표별로 모델 응답을 비교하여 동일한 응답의 지표별 점수 차이를 분석합니다.
- Model-Metric: 특정 모델의 특정 평가지표만 집중적으로 조회하여 단독 분석을 수행합니다.
⑤ 필터 및 검색
상단 필터 영역을 통해 원하는 조건으로 결과를 세밀하게 조회할 수 있습니다.

Metric과 Metadata 조건 선택, 점수 범위 설정, 검색어 입력, 정렬 옵션을 통해 원하는 결과만 필터링할 수 있습니다.
⑥ 응답 비교 테이블
Query와 모델별 점수 및 응답을 나란히 확인할 수 있으며, 셀 클릭 시 상세 평가 정보를 확인할 수 있습니다. 점수 구간은 색상으로 구분되어 시각적으로 성능을 파악할 수 있습니다.

⑦ Detail 패널
선택한 응답의 평가 근거와 기준을 상세히 확인할 수 있습니다. 원문 질문과 응답, 맥락 정보를 함께 제공하며, 모델명과 점수, 평가 Rubric을 통해 평가 과정을 투명하게 확인할 수 있습니다.

활용 가이드
용도별 탭 활용
- 여러 모델 성능 비교 → Compare Model 탭
- 평가지표 간 성능 차이 확인 → Compare Metric 탭
- 단일 모델 집중 분석 → Model-Metric 탭
심화 분석
- 필터와 정렬을 조합하여 특정 상황의 성능 이슈를 빠르게 파악
- Dashboard 차트 클릭으로 관심 영역의 상세 데이터 즉시 확인
- Detail 패널을 활용한 평가 근거 및 기준 검토
데이터셋이 특정 조건을 만족하는 경우,
Judge 평가와 함께 BEIR 벤치마크가 자동 실행되며 Beir Leaderboard 형식으로 결과를 확인할 수 있습니다.