TutorialsEvaluationQuantitative EvaluationQuantitative Evaluation 객관적이고 측정 가능한 지표를 통해 AI 모델의 성능을 수치적으로 평가하는 방식입니다. 일관되고 재현 가능한 평가 결과를 제공하여 모델 간 객관적 비교가 가능합니다. Harness Task표준화된 벤치마크 테스트를 통해 AI 모델의 성능을 측정하고 비교합니다.Reference-based Evaluation정답과 AI 응답을 비교하여 유사성을 측정하는 NLP 기반 평가입니다.