본문으로 건너뛰기

Harness Task

Overview

Datumo Eval의 Harness Task는 MMLU, HellaSwag, ARC 등 표준 벤치마크 데이터셋을 기반으로 LLM의 성능을 자동 평가하고, 결과를 리더보드 형태로 시각화하여 모델 간 비교를 지원합니다.

  • HRM8K : 수학 문제 해결 능력 평가
  • KMMLU : 한국어 다영역 이해력 평가 (Korean Multi-domain Multi-task Language Understanding)
  • KOBEST: 한국어 자연어 이해 벤치마크 (Korean Benchmark Suite for Natural Language Understanding)
용어 정리
  • Dataset → 평가에 사용되는 벤치마크 데이터 그룹입니다. 예: MMLU, HRM8K, KOBEST 등
  • Subset → 하나의 Dataset 내 세부 도메인별 평가 세트입니다. 예: MMLU의 law, physics, math 등
  • Task → 선택한 Dataset, Subset, Target Model 조합으로 수행되는 평가 단위입니다.
  • Leaderboard → 여러 모델의 평가 결과를 한눈에 비교할 수 있는 시각화 보드입니다

Step 1. Task 생성

① Harness Task 생성 진입

[Harness Task] 페이지 우측 상단의 [+ New Task] 버튼을 클릭하여 새로운 평가 작업을 시작합니다.

② Task 정보 입력

Harness Task의 이름과 타겟모델 선택 후, Subset 을 선택합니다.

③ RAGAs Task 생성 완료 평가 진행

[Complete] 버튼을 클릭하면 평가가 자동으로 실행됩니다. 결과는 리더보드 형태로 확인할 수 있으며, 평가 후 Add Subset 또는 Add Target Model을 통해 분석을 확장할 수 있습니다.