Setting Up Dataset
데이터셋 생성 및 업로드 페이지에서는 평가용 질문 데이터(쿼리)를 업로드하거나,
문서(Context)를 기반으로 쿼리를 자동 생성하여 평가용 데이터셋을 구성하는 방법을 안내합니다.
- 데이터셋 업로드 또는 문서 기반 평가 데이터 생성 지원
- 구성된 데이터셋은 이후 평가 단계에서 사용
데이터셋 구성 방식은 업로드하는 데이터의 형태에 따라 다음 세 가지 Upload Type 으로 구분됩니다.
각 Upload Type 별로 화면 구성과 평가 흐름이 달라지므로, 보유한 데이터 구조에 맞는 방식을 선택해 주세요.
Upload Type | 개요 | 이런 상황에 사용하기 좋아요 |
---|---|---|
1️⃣ Context-only | 문서만 업로드하고 | 쿼리 데이터가 없는 경우, 문서 기반으로 쿼리 생성 및 평가를 진행하고자 할 때 |
2️⃣ Context+Query | 쿼리를 사용자가 제공하면 | 수집된 질문 데이터를 기반으로, 모델 응답 생성 및 평가를 자동화하고자 할 때 |
3️⃣ Query+Response | 기존 쿼리-응답을 업로드하고 | 이미 생성된 쿼리–응답 데이터를 기반으로, 빠르게 평가를 진행하고자 할 때 |
Quick Flow
- 1️⃣ Query Generation
- 2️⃣ Query Upload
- 3️⃣ Response Upload
Flow 1 Query Generation (Context-only)
이 업로드 방식은 문서(Context)만 보유한 경우 이를 기반으로 쿼리를 자동 생성하여 평가용 데이터셋을 구성하는 방식입니다.
👉 상세 흐름 보기
이런 상황에 사용하기 좋아요
- 쿼리 데이터를 별도로 보유하지 않은 경우
- 문서 기반으로 쿼리 생성 품질을 검증하고자 하는 경우
Quick flow
- 문서(Context) 업로드
- 커스텀 파라미터 설정
- 샘플 쿼리 생성 확인
- 전체 쿼리 생성
- 데이터셋 저장
Flow 2 Query Upload (Context + Query)
이 업로드 방식은 질문 데이터(쿼리)와 문서(Context)를 함께 제공하여 모델 응답 생성 및 평가를 자동으로 수행하는 방식입니다.
👉 상세 흐름 보기
이런 상황에 사용하기 좋아요
- 내부에서 수집한 질문 데이터가 이미 존재하는 경우
- 모델 응답 생성 및 평가를 함께 자동화하고자 할 경우
Quick flow
- 문서 + 쿼리 포함된 파일 업로드 (CSV 또는 XLSX)
- 평가 지표 및 생성 타입 선택
- 샘플 쿼리 확인
- 데이터셋 이름 설정 및 저장
- 자동 응답 생성 및 평가 진행
Flow 3. Response Upload (Query + Response)
이 업로드 방식은 쿼리와 응답 데이터를 모두 보유한 경우 기존 응답 데이터를 기반으로 즉시 평가만 수행하는 방식입니다.
👉 상세 흐름 보기
이런 상황에 사용하기 좋아요
- 기존 시스템 또는 외부 모델에서 생성된 응답 데이터를 평가하고자 하는 경우
- 서비스 로그, 대화 기록 등 확보된 쿼리–응답 데이터를 평가 지표로 분석하려는 경우
- 응답 재생성 없이 모델 응답 품질을 빠르게 검증하고자 하는 경우
- 베이스라인 모델 간 성능 비교를 수행하려는 경우
Quick flow
- 평가용 파일 업로드 (Query + Response 포함)
- 평가 지표 및 생성 타입 선택
- 샘플 데이터 확인
- 데이터셋 이름 설정 및 저장
- 평가 실행
Step-by-step 1️⃣ Query Generation
Query Generation (Context-only) 업로드 방식은
문서(Context)만 보유한 경우 이를 기반으로 쿼리를 자동 생성하여 평가용 데이터셋을 구성하는 방식입니다.
① 데이터셋 생성 화면 진입
프로젝트 내 [Dataset] 탭으로 이동 → [New Dataset] 클릭

② 평가 기준 선택 (Metric 설정)
이 데이터셋이 어떤 기준으로 평가될지 결정하는 단계예요.
- 예: 명료성, 유용성, 공감성, factuality 등 사전에 Metric Setting 에서 지표가 등록되어 있어야 선택 가능

③ 문서 업로드 (Context 파일)
평가용 쿼리 생성을 위해 문서(Context)를 업로드합니다.
청킹된 문서를 업로드 하는 것을 권장합니다.

Context 파일은 단일 컬럼(context) 형식으로 준비해야 하며, 샘플 파일을 다운로드하여 형식을 확인할 수 있습니다.
- 파일 형식:
.csv
,.xlsx
- 필수 컬럼:
context
(질문을 생성할 문서 내용)
④ 쿼리 생성 모델 선택
업로드한 문서에서 질문을 생성할 AI 모델을 선택합니다.
생성 품질은 선택한 모델에 따라 다르니, 평가 목적에 맞는 모델을 선택하세요.

⑤ 파라미터 설정 (선택 사항)
쿼리 생성을 더 정밀하게 제어하려면 다양한 파라미터를 설정할 수 있어요.
파라미터 | 설명 |
---|---|
Tone | 말투 설정 (예: 일반체, 반말체 등) |
Topic | 주제 지정 (예: 대출, 카드, 수수료 등) |
User Persona | 질문자 성격 정의 (예: 일반 사용자, 전문가 등) |
Intent Variation | 오타나 말줄임, 애매한 표현 등 추가하여 모델 이해력 테스트 |

⑥ 샘플 쿼리 확인 및 조정
설정값에 따라 생성된 15개의 샘플 쿼리를 미리 검토할 수 있습니다.
필요 시 파라미터 수정 후 재생성할 수 있습니다.

⑦ 전체 쿼리 생성 → 데이터셋 저장
샘플이 만족스럽다면, 전체 문서를 기준으로 쿼리를 생성해보세요.
데이터셋 이름을 정해 저장하면 쿼리가 자동 생성되며 데이터셋이 최종 구성됩니다.
▶️ 다음 단계
→ 데이터셋 구성이 완료되었으므로, 이후 평가를 진행할 수 있습니다. 😊
Step-by-step 2️⃣Query Upload
Query Upload (Context+Query) 업로드 방식은
질문 데이터(쿼리)와 문서(Context)를 함께 제공하여 모델 응답 생성 및 평가를 자동으로 수행하는 방식입니다.
① 데이터셋 생성 화면 진입
프로젝트 내 [Dataset] 탭으로 이동 → [New Dataset] 클릭

② 평가 기준 선택 (Metric 설정)
이 데이터셋이 어떤 기준으로 평가될지 결정하는 단계예요.
- 예: 명료성, 유용성, 공감성, factuality 등 사전에 Metric Setting 에서 지표가 등록되어 있어야 선택 가능

③ 문서 업로드 (Context + Query 파일)
평가용 쿼리 생성을 위해 문서(Context + Query)를 업로드합니다.
청킹된 문서를 업로드 하는 것을 권장합니다.

Context 파일은 단일 컬럼(context) 형식으로 준비해야 하며, 샘플 파일을 다운로드하여 형식을 확인할 수 있습니다.
- 파일 형식:
.csv
,.xlsx
- 필수 컬럼:
query
- 선택 옵션:
id
,context
,metadata
④ 샘플 쿼리 확인 및 조정
파일 업로드 후 자동 생성된 최대 100개까지 샘플 쿼리를 확인합니다.

파일 업로드를 하면 문서 최대 100개 까지 미리보기를 지원합니다.

데이터를 선택하면 전체 내용 확인이 가능한 Datail View가 펼쳐집니다.
⑤ 데이터셋 저장
데이터셋 이름을 입력 후 저장하면 데이터셋 구성이 완료됩니다.
💡 저장된 데이터셋은 이후 평가 탭에서 사용 가능합니다.

▶️ 다음 단계
→ 데이터셋 구성이 완료되었으므로, 이후 평가를 진행할 수 있습니다. 😊
Step-by-step 3️⃣Response Upload
Response Upload (Query + Response) 업로드 방식은
쿼리와 응답 데이터를 모두 보유한 경우 기존 응답 데이터를 기반으로 즉시 평가만 수행하는 방식입니다.
① 데이터셋 생성 화면 진입
프로젝트 내 [Dataset] 탭으로 이동 → [New Dataset] 클릭

② 평가 기준 선택 (Metric 설정)
이 데이터셋이 어떤 기준으로 평가될지 결정하는 단계예요.
- 예: 명료성, 유용성, 공감성, factuality 등 사전에 Metric Setting 에서 지표가 등록되어 있어야 선택 가능

③ 쿼리 + 응답 포함된 파일 업로드
평가용 쿼리 생성을 위해 문서(Context + Query)를 업로드합니다.
청킹된 문서를 업로드 하는 것을 권장합니다.

샘플 파일을 다운로드 해서 사용할 수 있습니다.
⚠️ retrieved_context1은 반드시 포함되어야 하며, 최소 1개의 문서 근거가 필요합니다.
나머지 context 컬럼(retrieved_context2~5)은 선택 항목입니다.
- 파일 형식:
.csv
,.xlsx
- 필수 컬럼:
query
- 선택 옵션:
id
,context
,metadata
① Query + Response 파일
-
파일 형식: CSV 또는 XLSX
-
필수 컬럼:
query
,response
,retrieved_context1
컬럼명 필수 설명 query
✔️ 평가할 질문 response
✔️ 생성된 응답 retrieved_context1
✔️ 응답 생성 시 사용된 주요 근거 문서 retrieved_context2~5
선택 추가 근거 문서 (있는 경우) (기타 메타데이터) 선택 모델 버전, 생성 일시 등 -
예시:
query response retrieved_context1 retrieved_context2 Category 대출 조건이 궁금합니다 대출은 연 3% 고정 이율입니다. 산업은행 대출 안내 제1조 상품 이용 조건 영업점 방문 상담 가능 시간은 언제인가요? 평일 오전 9시~6시까지입니다. 고객센터 운영 기준 - 채널톡
④ 샘플 데이터 확인 및 조정
파일 업로드 후 자동 생성된 최대 100개까지 샘플 쿼리를 확인합니다. 데이터 형식이 이상이 없는지 간단히 확인하세요.

Response가 포함된 파일을 업로드하면 3분할 화면이 노출됩니다.

data를 선택하면 전체 Context와 Query의 전체 내용 및 이외 메타데이터들을 확인할 수 있습니다.
⑤ 데이터셋 저장
데이터셋 이름을 입력 후 저장하면 데이터셋 구성이 완료됩니다.
💡 저장된 데이터셋은 이후 평가 탭에서 사용 가능합니다.

▶️ 다음 단계
→ 데이터셋 구성이 완료되었으므로, 이후 평가를 진행할 수 있습니다. 😊