본문으로 건너뛰기

Viewing Results

결과 확인 페이지에서는 평가 결과를 Dashboard와 Table View를 통해 확인하고 분석하는 방법을 안내합니다.

  • Dashboard는 모델 성능을 시각적으로 비교 분석할 수 있습니다.
  • Table View는 개별 샘플 단위의 평가 결과를 확인하여, 오류 분석 및 개선 방향 수립에 활용할 수 있습니다.

👉 평가를 시작하기 전에, 데이터셋의 최종 쿼리 및 컨텍스트는 평가용 데이터셋 관리 페이지에서 반드시 점검해 주세요.



Step 1. Dashboard 화면

프로젝트에 진입하면 가장 먼저 Dashboard가 표시됩니다. Dashboard에서는 다양한 시각화 도구를 통해 모델 성능을 비교하고 인사이트를 얻을 수 있습니다.

평가가 완료된 결과만 표시됩니다.
※ Category(카테고리) 와 Metric(매트릭) 개념은 Dashboard와 Metric 설정에서 공통적으로 사용됩니다.
→ 카테고리는 유사한 Metric을 묶은 상위 그룹으로, 전체 성능을 보다 쉽게 파악할 수 있도록 구성된 단위입니다.

Dashboard 구성

Dashboard는 총 3개의 영역으로 구성됩니다.

  1. Category 정확도 비교
  2. Metric 정확도 비교
  3. Evaluation Result 세부 분석

※ 카테고리(Category)와 매트릭(Metric)의 결과는 범주에 따라 서로 다른 화면으로 구분하여 확인할 수 있습니다.

Bar Chart
  • Bar 차트 : 각 카테고리의 정확도를 모델별로 직접 비교할 수 있습니다
Radar Chart
  • Radar 차트: 지표가 3개 이상일 경우 제공되며, 모델 간 성능 패턴과 분포를 시각적으로 확인할 수 있습니다


① Category 정확도 비교

모델별 카테고리 성능을 비교합니다.
카테고리는 여러 Metric이 묶인 단위로, 전체적인 성능 분포를 쉽게 확인할 수 있습니다.



② Metric 정확도 비교

각 카테고리 내 세부 지표(Metric) 별 성능을 확인할 수 있습니다.


③ Evaluation Result 세부 분석

모델별로 특정 메트릭의 점수 분포를 막대그래프, 히스토그램 등으로 시각화하여 제공합니다.
또한 Rubric별 세부 결과도 확인할 수 있어 평가 결과를 정밀하게 분석할 수 있습니다.

히스토그램
  • 모델별 점수 분포를 시각화하여, 사용자가 성능 편차나 데이터 특성에 따른 차이를 분석할 수 있도록 지원합니다.
막대그래프
  • 특정 Rubric 별로 모델 간 점수를 비교할 수 있으며, 세부 항목별 강점과 약점을 명확하게 확인할 수 있습니다.
Score Heatmap
  • 기존 데이터에 태그된 Metadata 를 기반으로 Score Heatmap을 제공하며,
    사용자가 데이터 타입이나 상황별 성능 변화를 쉽게 확인할 수 있도록 지원합니다.




Step 2. Table View

Table View는 Dashboard에서 확인한 결과를 세부적으로 확인할 수 있는 상세 화면입니다.
모든 Dashboard 그래프는 클릭 시 해당 정보를 Table View로 연결하여 보여줍니다.

Table View 주요 구성




⑤ 탭 구조: 평가 관점 전환

Table View는 총 3개의 탭으로 구성되어 있으며, 각 탭은 평가 결과를 보는 관점이 다릅니다.


🗂 주요 구성요소

  • Compare Model 여러 모델의 응답과 점수를 비교하여, 같은 질문에 대해 어떤 모델이 더 우수한지를 확인할 수 있는 기본 탭입니다.
  • Compare Metric 메트릭별로 모델의 응답을 비교합니다. 동일한 응답이라도, 메트릭별 점수 차이를 확인할 수 있습니다.
  • Model-Metric 특정 모델의 각 메트릭 점수를 일괄로 확인할 수 있는 구조입니다. 모델 단독 분석이나 단일 메트릭 집중 분석에 유용합니다.



⑥ 상단 필터 영역: 원하는 조건으로 결과 좁히기

  • Metric: 비교할 평가 지표를 선택합니다 (예: RAG Quality, Fluency 등)
  • Metadata: Dataset, Tone, Topic 등으로 필터링 가능.
  • Score 범위 필터: 모델별 점수 범위를 조정하여 특정 점수 구간 응답만 볼 수 있음
  • 검색 및 정렬: Query내용의 일부 입력 시 검색 가능



⑦ 응답 비교 테이블: 모델별 점수와 응답 비교

  • Query 열: 평가 대상 문장(질문/문장)이 표시됩니다.
  • 모델 열: 선택한 모델들의 응답 및 점수가 나열됩니다.
  • 셀 클릭 시: 해당 응답에 대한 평가 상세 정보(Detail)를 우측에서 확인 가능.
  • 컬러 인디케이터: 점수 구간별 색상 강조 제공.



⑧ Detail 패널: 평가 근거와 기준 확인

선택한 응답의 세부 평가 내역을 확인할 수 있습니다.

  • 응답 전체 보기: View full response & context 클릭 시, 원문 질문/응답 및 관련 맥락을 확인할 수 있습니다.
  • 모델명 + 점수: 해당 응답을 생성한 모델과 평가된 메트릭 점수를 확인할 수 있으며,
    Edit 버튼을 통해 평가 결과 및 코멘트를 직접 수정할 수 있습니다.
  • 정답/오답 Rubric: 어떤 기준에 의해 평가되었는지 기준이 제시됩니다.
    ※ 숨겨진 지표(예: Hidden Metrics)도 필요 시 추가 지표를 펼쳐서 볼 수 있습니다.

⑨ 활용 팁
  • 여러 모델을 비교하고 싶을 땐 Compare Model 을 사용하세요.
  • 메트릭 간 성능 차이를 보고 싶다면 Compare Metric 을 사용하세요.
  • 단일 모델 집중 분석 시에는 Model-Metric 을 사용하세요.
  • 필터와 정렬을 조합하면, 특정 상황에서의 성능 이슈를 빠르게 파악할 수 있습니다.