Dashboard & TableView
Dashboard와 Table View는 Datumo Eval에서 평가 결과를 이해하고 분석하기 위한 화면입니다.
Dashboard는 전체적인 성능 흐름을 시각화하여 빠르게 파악할 수 있게 하고,
Table View는 개별 Query 단위의 응답과 평가 근거를 확인하는 상세 분석용 화면으로 구성됩니다.
두 화면을 함께 사용하면 전체 성능에서 세부 사례까지 자연스럽게 이어지는 분석 흐름을 만들 수 있습니다.
Dashboard의 개념
Dashboard는 모델 성능을 상위 수준에서 이해할 수 있도록 요약된 정보를 제공합니다.
평균 점수, Metric별 성능, 평가 유형에 따라 제공되는 시각화 요소를 통해 모델의 전반적인 경향과 패턴을 빠르게 파악할 수 있습니다.
하나의 Task 안에서 여러 Eval Set을 비교하는 기능도 제공되어, 모델 간 성능 차이와 버전 변화를 한눈에 확인할 수 있습니다.
Table View의 개념
Table View는 개별 평가 항목을 확인하는 상세 분석 화면입니다.
각 Query에 대해 모델 응답, 점수, Reasoning을 순서대로 검토할 수 있으며,
필터링과 검색 기능을 활용해 특정 오류 유형이나 관심 영역을 집중적으로 탐색할 수 있습니다.
세부 디버깅이나 Outlier 분석이 필요한 상황에서 Table View는 핵심적인 역할을 합니다.
Dashboard와 Table View의 관계
두 화면은 서로 다른 관점을 제공하지만 분석 과정에서는 유기적으로 연결됩니다.
사용자는 Dashboard에서 전체적인 성능 흐름을 확인한 뒤, 특정 구간의 성능이 낮거나 비정상적인 패턴을 발견하면 Table View에서 해당 항목을 세부적으로 분석할 수 있습니다.
이 흐름을 반복하면서 모델의 문제 원인을 파악하고 개선 방향을 도출할 수 있습니다.
Leaderboard View
BEIR과 같이 표준화된 벤치마크 평가의 경우 결과가 Leaderboard 형식으로 제공됩니다.
Leaderboard는 모델 점수를 기준으로 순위를 표시해 여러 모델을 객관적으로 비교할 수 있도록 구성된 화면입니다.
검색·필터링 및 내보내기
Table View는 Query, Response, Metadata 기반의 검색과 다양한 필터링 기능을 제공하여 원하는 항목을 빠르게 탐색할 수 있습니다.
Dashboard 또한 Task 내 여러 Eval Set의 비교를 위한 기본적인 필터링 기능을 제공합니다.
평가 결과는 xlsx 형태로 내려받아 외부 분석 도구나 보고서 제작에 활용할 수 있습니다.