평가 결과를 어떻게 해석하고 내보내나요?
Step 4. 평가 결과 확인
평가가 완료되면 Table View 화면에서 결과를 확인할 수 있습니다.
각 샘플(질문)에 대한 평가 결과가 행(row) 단위로 표시되며,
각 지표(예: Precision, Recall, Faithfulness 등)는 0~1 범위의 점수로 제공됩니다.
셀을 클릭하면 우측 Detail 패널에서 Claim 단위의 평가 세부 결과를 확인할 수 있습니다.
Detail 화면에서는 선택한 샘플(질문·응답 쌍)의 평가 결과를 Claim 단위로 시각화하여 제공합니다.
각 영역의 정보는 다음과 같습니다.
-
Query 영역
사용자가 입력한 원본 질문(query)과 해당 샘플의 메타데이터가 표시됩니다.
ER(기대 정답)과 TR(모델 응답)을 비교 평가하기 위한 기준 질문입니다.
“View reference context”를 클릭하면 이 쿼리에 대응하는 검색 문서(컨텍스트) 세부정보로 이동할 수 있습니다. -
Model Response 영역
Target Model이 생성한 실제 응답(response)이 표시됩니다.
Decomposition 및 Entailment 단계를 통해 Claim 단위 평가 결과가 시각화되며,
각 Claim은 색상 태그와 점수로 구분됩니다.- 2-1. Claim Score Summary
모델 응답 전체의 Claim별 평가 점수가 요약되어 표시됩니다. - 2-2. Claim-level 내용 및 판단 결과
각 Claim이Entailed,Contradicted,Irrelevant중 어떤 판정인지 태그로 표시됩니다.
각 Claim 옆에는 “Context Entailed” / “Context Refuted” 등의 라벨이 부착됩니다. - 2-3. Target Model / Agent의 전체 응답 텍스트를 확인할 수 있습니다.
- 2-1. Claim Score Summary
-
Expected Response 영역
ER(Expected Response)로부터 분해된 Claim 단위 정보가 표시됩니다.
세부 화면은 Query 영역과 동일하게 점수, Claim 내용, 전체 ER 문장을 함께 제공합니다. -
Retrieved Context 영역
모델이 응답 생성 시 참조한 문서(Retrieved Context) 내용이 표시됩니다.
각 문서에는 해당 문맥이 포함하는 Claim의 근거 여부(Entailment 결과)가 함께 제공됩니다.
상단에는 컨텍스트 단위의 Context Precision 점수가 요약되어 표시됩니다.- 예시:
- C1: 정답 Claim 포함 (Relevant Context)
- C2: 정답 Claim 미포함 (Irrelevant Context)
- 예시:

Step 5. 평가 결과 내보내기 (Export)
Table View 상단의 Export 버튼을 클릭하면,
현재 평가 결과를 .xlsx 파일로 다운로드할 수 있습니다.
Export된 파일에는 각 샘플별 주요 지표(Precision, Recall, Faithfulness, Hallucination 등)가 포함됩니다.
🔍 Tip:
- Export 파일은 분석·리포팅용으로 활용 가능하며,
시드별 성능 비교나 모델 간 평가 결과를 교차분석할 때 유용합니다.- Claim 단위 상세 결과는 UI 내 Detail 패널에서만 확인할 수 있습니다.