Harness Task
Overview
Datumo Eval의 Harness Task는 MMLU, HellaSwag, ARC 등 표준 벤치마크 데이터셋을 기반으로 LLM의 성능을 자동 평가하고, 결과를 리더보드 형태로 시각화하여 모델 간 비교를 지원합니다.
- HRM8K : 수학 문제 해결 능력 평가
- KMMLU : 한국어 다영역 이해력 평가 (Korean Multi-domain Multi-task Language Understanding)
- KOBEST: 한국어 자연어 이해 벤치마크 (Korean Benchmark Suite for Natural Language Understanding)
용어 정리
- Dataset → 평가에 사용되는 벤치마크 데이터 그룹입니다. 예: MMLU, HRM8K, KOBEST 등
- Subset → 하나의 Dataset 내 세부 도메인별 평가 세트입니다. 예: MMLU의 law, physics, math 등
- Task → 선택한 Dataset, Subset, Target Model 조합으로 수행되는 평가 단위입니다.
- Leaderboard → 여러 모델의 평가 결과를 한눈에 비교할 수 있는 시각화 보드입니다
Step 1. Task 생성
① Harness Task 생성 진입
[Harness Task] 페이지 우측 상단의 [+ New Task] 버튼을 클릭하여 새로운 평가 작업을 시작합니다.
② Task 정보 입력
Harness Task의 이름과 타겟모델 선택 후, Subset 을 선택합니다.
③ RAGAs Task 생성 완료 평가 진행
[Complete] 버튼을 클릭하면 평가가 자동으로 실행됩니다. 결과는 리더보드 형태로 확인할 수 있으며, 평가 후 Add Subset 또는 Add Target Model을 통해 분석을 확장할 수 있습니다.
