본문으로 건너뛰기

RAG Checker를 어떻게 실행하나요?

✅ RAG Checker Overview

RAG Checker는 Expected Response(ER)Target Response(TR) 를 비교하여
RAG 시스템의 정확도(Factuality)검색·생성 단계별 성능을 자동으로 평가하는 도구입니다.

데이터셋을 업로드하고 평가 Task를 생성하면,
Precision, Recall, Faithfulness, Hallucination 등 주요 지표를 자동 산출해
모델의 사실 충실도와 정보 활용도를 정량적으로 확인할 수 있습니다.


Step 1. 데이터셋 준비하기

평가를 수행하기 전에, 아래 항목을 포함한 데이터셋을 준비합니다.

📂 데이터셋 업로드 가이드 확인하기
컬럼명설명
query사용자의 입력 질문
expected_response해당 질문에 대한 기대 정답(ER, Expected Response)
responseRAG 시스템이 실제로 생성한 Target Response
retrieved_context1모델이 답변 생성 시 참조한 문서(컨텍스트)
다수의 문서를 사용할 경우 retrieved_context2, retrieved_context3 ... 형태로 순차 추가
  • 지원 형식: .csv, .xlsx
  • 필수 컬럼: query, expected_response, response, retrieved_context1

Step 2. RAG Checker Task 생성

  1. 좌측 네비게이션에서 RAG Checker 메뉴를 선택합니다.
  2. 우측 상단의 + Add Task 버튼을 클릭합니다.
  3. 팝업 창에서 다음 정보를 입력합니다:
    • Task Name: 평가 이름
    • Description: 간단한 설명
    • Target Model: 평가할 RAG 시스템 또는 LLM 명칭
  4. 입력이 완료되면 [Create] 버튼을 눌러 Task를 생성합니다.

Task가 생성되면 Evaluation Set 생성 단계로 이동합니다.


Step 3. 평가 세트 생성 및 실행

  1. 생성된 Task 상세 화면으로 이동합니다.
  2. 상단 탭에서 [Evaluation Set] 을 선택하고 + New Eval Set 버튼을 클릭합니다.
  3. 다음 설정을 지정합니다:
    • Decomposition Model 선택 (응답을 Claim 단위로 분해)
    • Entailment Model 선택 (각 Claim이 문서(Context)에 근거하는지 판별)
    • Set Name / Description 입력
  4. 평가에 사용할 데이터셋을 선택합니다.
  5. [Start Evaluation] 버튼을 클릭하여 평가를 시작합니다.

평가가 시작되면, RAG Checker는 자동으로 다음 단계를 수행합니다:

  • 응답을 검증 가능한 Claim 단위로 분해
  • 각 Claim이 검색된 문맥(Passage)으로부터 논리적으로 수반(Entailment)되는지 판별


평가가 완료되면 다음 단계에서 결과를 확인할 수 있습니다.