Viewing Results
결과 확인 페이지에서는 평가 결과를 Dashboard와 Table View를 통해 확인하고 분석하는 방법을 안내합니다.
- Dashboard는 모델 성능을 시각적으로 비교 분석할 수 있습니다.
- Table View는 개별 샘플 단위의 평가 결과를 확인하여, 오류 분석 및 개선 방향 수립에 활용할 수 있습니다.
👉 평가를 시작하기 전에, 데이터셋의 최종 쿼리 및 컨텍스트는 평가용 데이터셋 관리 페이지에서 반드시 점검해 주세요.
Step 1. Dashboard 화면
프로젝트에 진입하면 가장 먼저 Dashboard가 표시됩니다. Dashboard에서는 다양한 시각화 도구를 통해 모델 성능을 비교하고 인사이트를 얻을 수 있습니다.
※ 평가가 완료된 결과만 표시됩니다.
※ Category(카테고리) 와 Metric(매트릭) 개념은 Dashboard와 Metric 설정에서 공통적으로 사용됩니다.
→ 카테고리는 유사한 Metric을 묶은 상위 그룹으로, 전체 성능을 보다 쉽게 파악할 수 있도록 구성된 단위입니다.

Dashboard 구성
Dashboard는 총 3개의 영역으로 구성됩니다.
- Category 정확도 비교
- Metric 정확도 비교
- Evaluation Result 세부 분석
※ 카테고리(Category)와 매트릭(Metric)의 결과는 범주에 따라 서로 다른 화면으로 구분하여 확인할 수 있습니다.

- Bar 차트 : 각 카테고리의 정확도를 모델별로 직접 비교할 수 있습니다

- Radar 차트: 지표가 3개 이상일 경우 제공되며, 모델 간 성능 패턴과 분포를 시각적으로 확인할 수 있습니다
① Category 정확도 비교
모델별 카테고리 성능을 비교합니다.
카테고리는 여러 Metric이 묶인 단위로, 전체적인 성능 분포를 쉽게 확인할 수 있습니다.

② Metric 정확도 비교
각 카테고리 내 세부 지표(Metric) 별 성능을 확인할 수 있습니다.

③ Evaluation Result 세부 분석
모델별로 특정 메트릭의 점수 분포를 막대그래프, 히스토그램 등으로 시각화하여 제공합니다.
또한 Rubric별 세부 결과도 확인할 수 있어 평가 결과를 정밀하게 분석할 수 있습니다.

- 모델별 점수 분포를 시각화하여, 사용자가 성능 편차나 데이터 특성에 따른 차이를 분석할 수 있도록 지원합니다.

- 특정 Rubric 별로 모델 간 점수를 비교할 수 있으며, 세부 항목별 강점과 약점을 명확하게 확인할 수 있습니다.

- 기존 데이터에 태그된 Metadata 를 기반으로 Score Heatmap을 제공하며,
사용자가 데이터 타입이나 상황별 성능 변화를 쉽게 확인할 수 있도록 지원합니다.
Step 2. Table View
Table View는 Dashboard에서 확인한 결과를 세부적으로 확인할 수 있는 상세 화면입니다.
모든 Dashboard 그래프는 클릭 시 해당 정보를 Table View로 연결하여 보여줍니다.
Table View 주요 구성

⑤ 탭 구조: 평가 관점 전환
Table View는 총 3개의 탭으로 구성되어 있으며, 각 탭은 평가 결과를 보는 관점이 다릅니다.

🗂 주요 구성요소
- Compare Model 여러 모델의 응답과 점수를 비교하여, 같은 질문에 대해 어떤 모델이 더 우수한지를 확인할 수 있는 기본 탭입니다.
- Compare Metric 메트릭별로 모델의 응답을 비교합니다. 동일한 응답이라도, 메트릭별 점수 차이를 확인할 수 있습니다.
- Model-Metric 특정 모델의 각 메트릭 점수를 일괄로 확인할 수 있는 구조입니다. 모델 단독 분석이나 단일 메트릭 집중 분석에 유용합니다.
⑥ 상단 필터 영역: 원하는 조건으로 결과 좁히기

- Metric: 비교할 평가 지표를 선택합니다 (예: RAG Quality, Fluency 등)
- Metadata: Dataset, Tone, Topic 등으로 필터링 가능.
- Score 범위 필터: 모델별 점수 범위를 조정하여 특정 점수 구간 응답만 볼 수 있음
- 검색 및 정렬: Query내용의 일부 입력 시 검색 가능
⑦ 응답 비교 테이블: 모델별 점수와 응답 비교

- Query 열: 평가 대상 문장(질문/문장)이 표시됩니다.
- 모델 열: 선택한 모델들의 응답 및 점수가 나열됩니다.
- 셀 클릭 시: 해당 응답에 대한 평가 상세 정보(Detail)를 우측에서 확인 가능.
- 컬러 인디케이터: 점수 구간별 색상 강조 제공.
⑧ Detail 패널: 평가 근거와 기준 확인
선택한 응답의 세부 평가 내역을 확인할 수 있습니다.

- 응답 전체 보기: View full response & context 클릭 시, 원문 질문/응답 및 관련 맥락을 확인할 수 있습니다.
- 모델명 + 점수: 해당 응답을 생성한 모델과 평가된 메트릭 점수를 확인할 수 있으며,
Edit 버튼을 통해 평가 결과 및 코멘트를 직접 수정할 수 있습니다. - 정답/오답 Rubric: 어떤 기준에 의해 평가되었는지 기준이 제시됩니다.
※ 숨겨진 지표(예: Hidden Metrics)도 필요 시 추가 지표를 펼쳐서 볼 수 있습니다.
- 여러 모델을 비교하고 싶을 땐 Compare Model 을 사용하세요.
- 메트릭 간 성능 차이를 보고 싶다면 Compare Metric 을 사용하세요.
- 단일 모델 집중 분석 시에는 Model-Metric 을 사용하세요.
- 필터와 정렬을 조합하면, 특정 상황에서의 성능 이슈를 빠르게 파악할 수 있습니다.