본문으로 건너뛰기

평가 결과를 어떻게 해석하고 내보내나요?

Step 4. 평가 결과 확인

평가가 완료되면 Table View 화면에서 결과를 확인할 수 있습니다.
각 샘플(질문)에 대한 평가 결과가 행(row) 단위로 표시되며,
각 지표(예: Precision, Recall, Faithfulness 등)는 0~1 범위의 점수로 제공됩니다.
셀을 클릭하면 우측 Detail 패널에서 Claim 단위의 평가 세부 결과를 확인할 수 있습니다.

🧩 Detail 화면 구성

Detail 화면에서는 선택한 샘플(질문·응답 쌍)의 평가 결과를 Claim 단위로 시각화하여 제공합니다.
각 영역의 정보는 다음과 같습니다.

  1. Query 영역
    사용자가 입력한 원본 질문(query)과 해당 샘플의 메타데이터가 표시됩니다.
    ER(기대 정답)과 TR(모델 응답)을 비교 평가하기 위한 기준 질문입니다.
    “View reference context”를 클릭하면 이 쿼리에 대응하는 검색 문서(컨텍스트) 세부정보로 이동할 수 있습니다.

  2. Model Response 영역
    Target Model이 생성한 실제 응답(response)이 표시됩니다.
    Decomposition 및 Entailment 단계를 통해 Claim 단위 평가 결과가 시각화되며,
    각 Claim은 색상 태그와 점수로 구분됩니다.

    • 2-1. Claim Score Summary
      모델 응답 전체의 Claim별 평가 점수가 요약되어 표시됩니다.
    • 2-2. Claim-level 내용 및 판단 결과
      각 Claim이 Entailed, Contradicted, Irrelevant 중 어떤 판정인지 태그로 표시됩니다.
      각 Claim 옆에는 “Context Entailed” / “Context Refuted” 등의 라벨이 부착됩니다.
    • 2-3. Target Model / Agent의 전체 응답 텍스트를 확인할 수 있습니다.
  3. Expected Response 영역
    ER(Expected Response)로부터 분해된 Claim 단위 정보가 표시됩니다.
    세부 화면은 Query 영역과 동일하게 점수, Claim 내용, 전체 ER 문장을 함께 제공합니다.

  4. Retrieved Context 영역
    모델이 응답 생성 시 참조한 문서(Retrieved Context) 내용이 표시됩니다.
    각 문서에는 해당 문맥이 포함하는 Claim의 근거 여부(Entailment 결과)가 함께 제공됩니다.
    상단에는 컨텍스트 단위의 Context Precision 점수가 요약되어 표시됩니다.

    • 예시:
      • C1: 정답 Claim 포함 (Relevant Context)
      • C2: 정답 Claim 미포함 (Irrelevant Context)

Step 5. 평가 결과 내보내기 (Export)

Table View 상단의 Export 버튼을 클릭하면,
현재 평가 결과를 .xlsx 파일로 다운로드할 수 있습니다.
Export된 파일에는 각 샘플별 주요 지표(Precision, Recall, Faithfulness, Hallucination 등)가 포함됩니다.

🔍 Tip:

  • Export 파일은 분석·리포팅용으로 활용 가능하며,
    시드별 성능 비교나 모델 간 평가 결과를 교차분석할 때 유용합니다.
  • Claim 단위 상세 결과는 UI 내 Detail 패널에서만 확인할 수 있습니다.