Skip to main content

Setting Up Dataset

데이터셋 생성 및 업로드 페이지에서는 평가용 질문 데이터(쿼리)를 업로드하거나,
문서(Context)를 기반으로 쿼리를 자동 생성하여 평가용 데이터셋을 구성하는 방법을 안내합니다.

  • 데이터셋 업로드 또는 문서 기반 평가 데이터 생성 지원
  • 구성된 데이터셋은 이후 평가 단계에서 사용

데이터셋 구성 방식은 업로드하는 데이터의 형태에 따라 다음 세 가지 Upload Type 으로 구분됩니다.
각 Upload Type 별로 화면 구성과 평가 흐름이 달라지므로, 보유한 데이터 구조에 맞는 방식을 선택해 주세요.

Upload Type개요이런 상황에 사용하기 좋아요
1️⃣ Context-only

문서만 업로드하고
쿼리와 응답은 LLM이 자동 생성 및 평가

쿼리 데이터가 없는 경우, 문서 기반으로 쿼리 생성 및 평가를 진행하고자 할 때

2️⃣ Context+Query

쿼리를 사용자가 제공하면
LLM이 응답 생성 및 평가 자동 수행

수집된 질문 데이터를 기반으로, 모델 응답 생성 및 평가를 자동화하고자 할 때

3️⃣ Query+Response

기존 쿼리-응답을 업로드하고
평가만 수행

이미 생성된 쿼리–응답 데이터를 기반으로, 빠르게 평가를 진행하고자 할 때



Quick Flow

Flow 1 Query Generation (Context-only)

이 업로드 방식은 문서(Context)만 보유한 경우 이를 기반으로 쿼리를 자동 생성하여 평가용 데이터셋을 구성하는 방식입니다.
👉 상세 흐름 보기

이런 상황에 사용하기 좋아요

  • 쿼리 데이터를 별도로 보유하지 않은 경우
  • 문서 기반으로 쿼리 생성 품질을 검증하고자 하는 경우

Quick flow

  1. 문서(Context) 업로드
  2. 커스텀 파라미터 설정
  3. 샘플 쿼리 생성 확인
  4. 전체 쿼리 생성
  5. 데이터셋 저장



Step-by-step 1️⃣ Query Generation

Query Generation (Context-only) 업로드 방식은
문서(Context)만 보유한 경우 이를 기반으로 쿼리를 자동 생성하여 평가용 데이터셋을 구성하는 방식입니다.



① 데이터셋 생성 화면 진입

프로젝트 내 [Dataset] 탭으로 이동 → [New Dataset] 클릭




② 평가 기준 선택 (Metric 설정)

이 데이터셋이 어떤 기준으로 평가될지 결정하는 단계예요.

  • 예: 명료성, 유용성, 공감성, factuality 등 사전에 Metric Setting 에서 지표가 등록되어 있어야 선택 가능



③ 문서 업로드 (Context 파일)

평가용 쿼리 생성을 위해 문서(Context)를 업로드합니다.
청킹된 문서를 업로드 하는 것을 권장합니다.

dataset_img
📄 파일 형식 요구사항

Context 파일은 단일 컬럼(context) 형식으로 준비해야 하며, 샘플 파일을 다운로드하여 형식을 확인할 수 있습니다.

  • 파일 형식: .csv, .xlsx
  • 필수 컬럼: context (질문을 생성할 문서 내용)



④ 쿼리 생성 모델 선택

업로드한 문서에서 질문을 생성할 AI 모델을 선택합니다.

생성 품질은 선택한 모델에 따라 다르니, 평가 목적에 맞는 모델을 선택하세요.




⑤ 파라미터 설정 (선택 사항)

쿼리 생성을 더 정밀하게 제어하려면 다양한 파라미터를 설정할 수 있어요.

파라미터설명
Tone말투 설정 (예: 일반체, 반말체 등)
Topic주제 지정 (예: 대출, 카드, 수수료 등)
User Persona질문자 성격 정의 (예: 일반 사용자, 전문가 등)
Intent Variation오타나 말줄임, 애매한 표현 등 추가하여 모델 이해력 테스트



⑥ 샘플 쿼리 확인 및 조정

설정값에 따라 생성된 15개의 샘플 쿼리를 미리 검토할 수 있습니다.
필요 시 파라미터 수정 후 재생성할 수 있습니다.




⑦ 전체 쿼리 생성 → 데이터셋 저장

샘플이 만족스럽다면, 전체 문서를 기준으로 쿼리를 생성해보세요.

데이터셋 이름을 정해 저장하면 쿼리가 자동 생성되며 데이터셋이 최종 구성됩니다.




▶️ 다음 단계
→ 데이터셋 구성이 완료되었으므로, 이후 평가를 진행할 수 있습니다. 😊








Step-by-step 2️⃣Query Upload

Query Upload (Context+Query) 업로드 방식은
질문 데이터(쿼리)와 문서(Context)를 함께 제공하여 모델 응답 생성 및 평가를 자동으로 수행하는 방식입니다.



① 데이터셋 생성 화면 진입

프로젝트 내 [Dataset] 탭으로 이동 → [New Dataset] 클릭




② 평가 기준 선택 (Metric 설정)

이 데이터셋이 어떤 기준으로 평가될지 결정하는 단계예요.

  • 예: 명료성, 유용성, 공감성, factuality 등 사전에 Metric Setting 에서 지표가 등록되어 있어야 선택 가능



③ 문서 업로드 (Context + Query 파일)

평가용 쿼리 생성을 위해 문서(Context + Query)를 업로드합니다.
청킹된 문서를 업로드 하는 것을 권장합니다.

dataset_img
📄 Context + Query 파일 형식 요구사항

Context 파일은 단일 컬럼(context) 형식으로 준비해야 하며, 샘플 파일을 다운로드하여 형식을 확인할 수 있습니다.

  • 파일 형식: .csv, .xlsx
  • 필수 컬럼: query
  • 선택 옵션: id, context, metadata



④ 샘플 쿼리 확인 및 조정

파일 업로드 후 자동 생성된 최대 100개까지 샘플 쿼리를 확인합니다.

파일 업로드를 하면 문서 최대 100개 까지 미리보기를 지원합니다.

데이터를 선택하면 전체 내용 확인이 가능한 Datail View가 펼쳐집니다.




⑤ 데이터셋 저장

데이터셋 이름을 입력 후 저장하면 데이터셋 구성이 완료됩니다.
💡 저장된 데이터셋은 이후 평가 탭에서 사용 가능합니다.

▶️ 다음 단계
→ 데이터셋 구성이 완료되었으므로, 이후 평가를 진행할 수 있습니다. 😊








Step-by-step 3️⃣Response Upload

Response Upload (Query + Response) 업로드 방식은
쿼리와 응답 데이터를 모두 보유한 경우 기존 응답 데이터를 기반으로 즉시 평가만 수행하는 방식입니다.



① 데이터셋 생성 화면 진입

프로젝트 내 [Dataset] 탭으로 이동 → [New Dataset] 클릭




② 평가 기준 선택 (Metric 설정)

이 데이터셋이 어떤 기준으로 평가될지 결정하는 단계예요.

  • 예: 명료성, 유용성, 공감성, factuality 등 사전에 Metric Setting 에서 지표가 등록되어 있어야 선택 가능



③ 쿼리 + 응답 포함된 파일 업로드

평가용 쿼리 생성을 위해 문서(Context + Query)를 업로드합니다.
청킹된 문서를 업로드 하는 것을 권장합니다.

dataset_img
📄 Query + Response 파일 형식 요구사항

샘플 파일을 다운로드 해서 사용할 수 있습니다.
⚠️ retrieved_context1은 반드시 포함되어야 하며, 최소 1개의 문서 근거가 필요합니다.
나머지 context 컬럼(retrieved_context2~5)은 선택 항목입니다.

  • 파일 형식: .csv, .xlsx
  • 필수 컬럼: query
  • 선택 옵션: id, context, metadata

① Query + Response 파일

  • 파일 형식: CSV 또는 XLSX

  • 필수 컬럼: query, response, retrieved_context1

    컬럼명필수설명
    query✔️평가할 질문
    response✔️생성된 응답
    retrieved_context1✔️응답 생성 시 사용된 주요 근거 문서
    retrieved_context2~5선택추가 근거 문서 (있는 경우)
    (기타 메타데이터)선택모델 버전, 생성 일시 등
  • 예시:

    queryresponseretrieved_context1retrieved_context2Category
    대출 조건이 궁금합니다대출은 연 3% 고정 이율입니다.산업은행 대출 안내 제1조상품 이용 조건영업점 방문
    상담 가능 시간은 언제인가요?평일 오전 9시~6시까지입니다.고객센터 운영 기준-채널톡



④ 샘플 데이터 확인 및 조정

파일 업로드 후 자동 생성된 최대 100개까지 샘플 쿼리를 확인합니다. 데이터 형식이 이상이 없는지 간단히 확인하세요.

Response가 포함된 파일을 업로드하면 3분할 화면이 노출됩니다.

data를 선택하면 전체 Context와 Query의 전체 내용 및 이외 메타데이터들을 확인할 수 있습니다.




⑤ 데이터셋 저장

데이터셋 이름을 입력 후 저장하면 데이터셋 구성이 완료됩니다.
💡 저장된 데이터셋은 이후 평가 탭에서 사용 가능합니다.

▶️ 다음 단계
→ 데이터셋 구성이 완료되었으므로, 이후 평가를 진행할 수 있습니다. 😊