본문으로 건너뛰기

Step 3. 평가 결과 확인

RAGAs 평가가 완료되면 Task에 진입하여 결과를 확인할 수 있습니다.
가장 먼저 Dashboard가 표시되어 다양한 시각화 도구로 모델 성능을 비교하고 주요 인사이트를 얻을 수 있으며,
Table View를 통해 개별 샘플 단위의 상세한 평가 결과를 분석할 수 있습니다.

추가 기능

데이터셋이 특정 조건을 만족하는 경우,
Judge 평가와 함께 BEIR 벤치마크가 자동 실행되며 Beir Leaderboard 형식으로 결과를 확인할 수 있습니다.


3-1) Dashboard 화면

Dashboard는 완료된 평가 결과만을 시각화하여 제공합니다. RAGAs 평가에서는 단일 카테고리로 구성되어 있어, 주요 분석 단위는 Metric(평가지표) 입니다.

Dashboard 주요 구성

① Metric 정확도 비교
각 평가지표별 모델 성능을 직관적으로 비교할 수 있습니다.

② Evaluation Result 세부 분석
점수 분포 및 Rubric별 세부 결과를 다양한 시각화로 제공합니다.

시각화 유형별 특징

Dashboard에서는 Metric 결과를 두 가지 차트 형태로 확인할 수 있습니다.

Bar Chart

모델별 Metric 성능을 막대그래프로 표시하여 지표별 성능 차이를 직관적으로 비교할 수 있습니다.

Radar Chart

여러 Metric을 동시에 표시하여 모델 간 성능 패턴과 강약점을 한눈에 파악할 수 있습니다.


Metric 비교 차트

RAGAs 카테고리 내 각 Metric 성능을 모델별로 비교하여 지표별 점수를 통해 모델 간 강점과 약점을 파악할 수 있습니다.


세부 분석 시각화

모델별로 특정 Metric의 점수 분포를 다양한 시각화로 제공하며, Rubric별 세부 결과도 확인하여 평가 결과를 정밀하게 분석할 수 있습니다.

히스토그램

모델별 점수 분포를 시각화하여 성능 편차나 데이터 특성에 따른 차이를 분석할 수 있습니다.

막대그래프

특정 Rubric별로 모델 간 점수를 비교하여 세부 항목별 강점과 약점을 명확하게 확인할 수 있습니다.

Score Heatmap

Metadata를 기반으로 Score Heatmap을 제공하여 데이터 타입이나 상황별 성능 변화를 쉽게 확인할 수 있습니다.


3-2) Table View 화면

Table View는 Dashboard에서 확인한 결과를 세부적으로 분석할 수 있는 상세 화면입니다. 상단 탭을 통해 직접 이동하거나, Dashboard 그래프 클릭 시 해당 정보가 자동으로 필터링되어 세부 데이터를 확인할 수 있습니다.


탭 구조

Table View는 세 가지 탭으로 구성되어 각기 다른 관점에서 평가 결과를 확인할 수 있습니다.

  • Compare Model: 여러 모델의 응답과 점수를 나란히 비교하여 동일한 질문에 대한 모델별 성능을 확인합니다.
  • Compare Metric: 평가지표별로 모델 응답을 비교하여 동일한 응답의 지표별 점수 차이를 분석합니다.
  • Model-Metric: 특정 모델의 특정 평가지표만 집중적으로 조회하여 단독 분석을 수행합니다.

필터 및 검색

상단 필터 영역을 통해 원하는 조건으로 결과를 세밀하게 조회할 수 있습니다.

Metric과 Metadata 조건 선택, 점수 범위 설정, 검색어 입력, 정렬 옵션을 통해 원하는 결과만 필터링할 수 있습니다.


응답 비교 테이블

Query와 모델별 점수 및 응답을 나란히 확인할 수 있으며, 셀 클릭 시 상세 평가 정보를 확인할 수 있습니다. 점수 구간은 색상으로 구분되어 시각적으로 성능을 파악할 수 있습니다.


Detail 패널

선택한 응답의 평가 근거와 기준을 상세히 확인할 수 있습니다. 원문 질문과 응답, 맥락 정보를 함께 제공하며, 모델명과 점수, 평가 Rubric을 통해 평가 과정을 투명하게 확인할 수 있습니다.


활용 가이드

효과적인 분석 방법

용도별 탭 활용

  • 여러 모델 성능 비교 → Compare Model 탭
  • 평가지표 간 성능 차이 확인 → Compare Metric 탭
  • 단일 모델 집중 분석 → Model-Metric 탭

심화 분석

  • 필터와 정렬을 조합하여 특정 상황의 성능 이슈를 빠르게 파악
  • Dashboard 차트 클릭으로 관심 영역의 상세 데이터 즉시 확인
  • Detail 패널을 활용한 평가 근거 및 기준 검토