본문으로 건너뛰기

✅ RAG Checker

Overview

RAG 평가 시스템은 ER(Expected Response)을 기준으로 답변을 검증 가능한 단위(Claim) 로 분해하고,

각 Claim이 검색된 문맥(Passage) 으로부터 논리적으로 수반(Entailment)되는지를 판단하여
RAG 시스템의 정확성(Factuality)성능 진단(Generator / Retriever 성능) 을 정량적으로 평가합니다.

시스템 구성:
내부적으로는 (1) Claim Decomposition 모듈, (2) Entailment Judge 모듈, (3) Metric Aggregator로 구성되어,
RAG의 검색(Retrieval)과 생성(Generation) 단계 성능을 각각 분리해 진단할 수 있습니다.


Flow (3-step)

  1. Decomposition:

    • ER(기대 응답)과 모델의 실제 응답을 Claim 단위로 분리합니다.
    • 각 Claim은 “검증 가능한 사실 단위(객관적으로 참/거짓 판단 가능한 문장)”로 정의됩니다.
  2. Entailment Judgment:

    • 분리된 Claim이 검색된 문맥(Chunk) 으로부터 논리적으로 수반(Entailment)되는지를 LLM Judge가 판별합니다.
  3. Metric Aggregation:

    • Entailment 결과를 기반으로 Overall / Retriever / Generator Metrics를 계산합니다.
    • 각 지표는 모델의 정확성, 충실성, 헛소리(Hallucination) 비율, 컨텍스트 활용도 등을 수치로 나타냅니다.

Metrics



Glossary

용어정의
ER (Expected Response)평가용 질문에 대해 기대되는 정답 문장(=Ground Truth Answer).
Claim검증 가능한 사실 단위. LLM을 통해 ER과 응답을 Claim 수준으로 분해(Decomposition)하여 평가에 활용.
EntailmentClaim이 문맥(Passage/Chunk)으로부터 논리적으로 수반되는 관계.
Chunk / PassageRAG의 검색 결과로 사용되는 문서 단위(문맥).
Faithfulness모델 응답이 실제 검색 문맥에 기반했는지를 평가하는 지표.
Hallucination문맥에 기반하지 않은 잘못된 정보를 생성한 경우.
Noise Sensitivity문맥에 불필요한 정보가 있을 때 모델이 그에 영향을 받아 오답을 생성하는 정도.
Self-Knowledge검색 문맥이 없어도 모델 자체 지식으로 정답을 맞힌 경우.

Strengths & Limitations

강점

  • 세분화된 metric 구조를 통해 RAG 시스템의 Retriever / Generator 단계별 진단이 가능함.
  • 정성 평가 대비, Claim 단위 기반 정량 평가로 신뢰도와 재현성 확보.

한계

  • 평가 품질이 Claim Decomposition의 정확도에 의존함.
  • Claim 중요도(핵심/부가 정보)를 구분하지 않기 때문에, Recall/Precision 해석 시 주의 필요