Interactive Evaluation Guide
Interactive Evaluation은 작업자가 AI 모델과 실시간으로 대화하며 응답 품질을 평가하는 워크플로우입니다.
작업자(Worker)가 평가를 제출하면, 검수자(Reviewer)가 이를 검토하고
Validation 기준에 따라 승인(👍) 또는 반려(👎) 를 결정합니다.
전체 Flow는 다음과 같습니다:
- (Reviewer) Task 생성 → 링크 배포
- (Worker) 대화 평가 → Ground Truth(선택) → 제출 사유 작성 & Submit
- (Reviewer) 제출 검토 → Validation 기준에 따라 👍/👎 평가
작업자 (Worker) — 평가 진행
작업자는 모델과 직접 대화하며 응답의 품질을 평가하고 제출합니다.
Step 1. 평가 진행 및 제출
① Task 링크 접속 및 로그인
전달받은 Task 링크를 클릭하고, 로그인 화면에서 계정 정보를 입력해 접속합니다.
② 모델과 대화 시작
하단 입력창에 질문을 입력하고, 모델의 응답을 확인한 뒤 필요 시 추가 질문으로 대화를 이어갑니다.
- 다양한 각도로 질문: 모델의 응답 품질을 다각도로 평가하세요
- 맥락 유지: 이전 대화를 참고하는 질문으로 일관성을 테스트하세요
- 충분한 대화: 평가에 필요한 만큼 대화를 진행하세요
③ Ground Truth 입력 (선택)
필요 시 [Input Ground Truth] 버튼을 눌러 기대되는 이상적 응답을 작성합니다. 작성 후 반드시 [Submission Basis] 에 제출 이유를 입력해야 [Submit] 버튼이 활성화됩니다.
- Ground Truth는 별도의 저장 버튼이 없으며, 제출 시 자동으로 함께 저장됩니다.
④ 제출 사유 작성
오른쪽 Submission Basis 영역에 평가 근거 또는 제출 사유를 입력합니다.
⑤ Submit 제출
[Submit] 버튼 클릭 시 다음 항목이 함께 저장됩니다.
- 대화 내역 (전체 질문 및 응답), Ground Truth (입력한 경우), 제출 사유 (Submission Basis)
검수자 (Reviewer) — Task 관리 및 검수
검수자는 Task 생성부터 검수까지 전체 평가 프로세스를 관리합니다.
Step 1. Task 생성 및 배포
① Interactive Evaluation Task 생성 진입
[Interactive Evaluation] 페이지 우측 상단의 [+ New Task] 버튼을 클릭하여 새로운 평가 작업을 시작합니다.
② Task 정보 입력
Interactive Evaluation Task의 기본 정보를 입력합니다.
- Task Name, Target Model, Validation 기준 입력 완료 후 [Complete] 버튼을 클릭해 Task를 생성합니다.
③ 작업자에게 링크 전달
생성된 Task의 **참여 링크(URL)**를 복사하여 작업자에게 공유합니다.
- 작업자는 링크를 통해 로그인 후 즉시 평가를 시작할 수 있습니다.
Step 2. Task Detail 확인 및 검수 진행
① Task Detail 진입
좌측 메뉴에서 [Interactive Evaluation] 클릭 → Task 리스트에서 검수할 Task 선택합니다.
② 제출 건 목록 확인
Task Detail 화면에서 작업자가 제출한 대화 내역 목록을 확인합니다.
③ 상세 내용 검토
제출 건을 클릭하여 상세 내용을 확인합니다.
- Validation 기준 충족 여부에 따라 👍 승인 / 👎 반려 선택
- 필요 시 Ground Truth 를 Edit 하여 수정 또는 새로 작성 가능
FAQ — 검수자
Q: Task 생성 후 수정할 수 있나요?
A: Task Name과 Description은 수정 가능하나, Target Model과 Validation 기준은 수정할 수 없습니다. 신중히 설정해주세요.
Q: Ground Truth가 없는 제출 건은 어떻게 평가하나요?
A: Ground Truth는 선택사항이므로, 대화 품질과 제출 사유만으로 평가할 수 있습니다.