본문으로 건너뛰기

Human Evaluation Overview

AI 응답을 사람이 직접 평가하는 방식으로, 모델의 응답 품질을 직관적으로 검증할 수 있습니다.

1. Manual Evaluation

사전에 정의된 평가 기준(루브릭)을 바탕으로 평가자가 수동으로 AI 응답의 품질을 평가하는 기능입니다. 체계적이고 일관된 평가 기준을 통해 객관성을 확보하면서도 인간의 주관적 판단을 반영할 수 있습니다.

2. Interactive Evaluation

AI 모델에게 직접 질의를 보내고 받은 응답을 실시간으로 평가하는 인터랙티브 평가 시스템입니다. 평가자가 응답을 Good/Bad로 즉시 평가하고 Ground Truth(GT)를 작성할 수 있는 기능을 제공합니다