Human Evaluation Overview
AI 응답을 사람이 직접 평가하는 방식으로, 모델의 응답 품질을 직관적으로 검증할 수 있습니다.
📄️ Manual Evaluation.
Manual Evaluation Guide
📄️ Interactive Evaluation
Interactive Evaluation은 작업자가 AI 모델과 실시간으로 대화하며 응답 품질을 평가하는 워크플로우입니다.
1. Manual Evaluation
사전에 정의된 평가 기준(루브릭)을 바탕으로 평가자가 수동으로 AI 응답의 품질을 평가하는 기능입니다. 체계적이고 일관된 평가 기준을 통해 객관성을 확보하면서도 인간의 주관적 판단을 반영할 수 있습니다.
2. Interactive Evaluation
AI 모델에게 직접 질의를 보내고 받은 응답을 실시간으로 평가하는 인터랙티브 평가 시스템입니다. 평가자가 응답을 Good/Bad로 즉시 평가하고 Ground Truth(GT)를 작성할 수 있는 기능을 제공합니다