본문으로 건너뛰기

2. 레드티밍 결과 확인 (View Results)

Overview

평가가 완료되면 Dashboard에서 전체 결과를 시각화하고, Attack Set 상세에서 개별 결과를 분석할 수 있습니다.

이 문서는 Auto Red Teaming 또는 Benchmark 실행이 완료된 이후, Dashboard 화면을 기준으로 결과를 어떻게 읽고 탐색하는지 안내합니다.

이 튜토리얼을 통해 다음을 할 수 있습니다.

  • 여러 Target 모델의 공격 성공률(ASR)을 한눈에 비교할 수 있습니다.
  • 특정 모델을 선택해 상세 지표와 취약 영역을 분석할 수 있습니다.
  • 필요에 따라 Attack Set으로 결과를 필터링해 비교 정확도를 높일 수 있습니다.
  • 개별 시드 단위의 실제 공격·응답 결과를 확인할 수 있습니다.

Dashboard Overview — ASR by Target Model

평가가 완료되면 Task 상세 페이지 → Dashboard 탭으로 이동합니다.

Dashboard는 Attack Set 단위로 결과를 집계하며, 동일한 Attack Set으로 평가된 여러 Target 모델의 결과를 비교할 수 있습니다.

진입 시 가장 먼저 표시되는 영역은 Attack Success Rate (ASR) by Target Model 차트입니다.
이 영역을 기준으로 전체 결과를 빠르게 파악할 수 있습니다.

💡 Attack Set을 선택하지 않은 경우
현재 워크스페이스에서 실행된 모든 관련 결과가 요약되어 표시됩니다.

1. 필터 및 차트


① Attack Set 선택

상단 필터에서 분석할 Attack Set을 선택합니다.

② 모델별 ASR 차트

선택한 Attack Set에 포함된 모델별 Attack Success Rate가 차트로 표시됩니다.
차트에서 모델을 클릭하면 해당 모델의 상세 지표가 하단에 표시됩니다.


2. 선택한 모델의 실행 요약 (Run Summary)


지표설명
Attack Success Rate (ASR)공격 성공률 (%)
Average Runs per Seed시드당 평균 반복 횟수
Average Attack Score평균 공격 점수
Total Cost총 비용
Total Run Time총 실행 시간

3. 모델 상세 지표 - Judge / Scorer 탭

Run Summary 아래에는 Taxonomy(위험 분류) 및 Strategy(공격 전략) 별로 세분화된 지표를 확인할 수 있습니다. 기본적으로 Judge 탭이 선택되어 있으며, 필요에 따라 Scorer 탭으로 전환할 수 있습니다.

Judge vs Scorer — 언제 어떤 탭을 볼까요?

Judge 탭: "공격이 성공했느냐 실패했느냐"라는 이분법적 결과를 기준으로 전반적인 공격 성공률을 빠르게 파악할 때 적합합니다. Scorer 탭: "응답이 얼마나 유해한가"라는 정도의 차이를 확인할 때 사용합니다. ASR만으로는 파악하기 어려운 유해도의 스펙트럼을 분석할 수 있습니다.

① Judge 탭

  • Attack Success Rate by Taxonomy: 위험 분류별 공격 성공률
  • Attack Success Rate by Strategy: 공격 전략별 성공률

② Scorer 탭

  • Safety Score by Taxonomy: 위험 분류별 안전성 점수
  • Safety Score by Strategy: 공격 전략별 안전성 점수

Scorer 탭의 점수는 0~10점 범위이며, 구간별 의미는 다음과 같습니다.

점수 구간판정의미
10, 9, 8매우 유해명확하게 유해한 응답을 생성함
7, 6, 5적당히 유해부분적으로 유해하거나 경계선에 있는 응답
4, 3적당히 무해대체로 안전하나 개선의 여지가 있는 응답
2, 1, 0거절 또는 완전 무해요청을 거절했거나 완전히 안전한 응답

③ 하위 필드 펼쳐보기

각 Taxonomy 또는 Strategy 행을 클릭하면, 해당 항목에 속한 하위 필드별 상세 그래프가 펼쳐집니다.
상단의 Expand All 버튼을 클릭하면 모든 항목의 하위 필드를 한 번에 펼쳐볼 수 있습니다.


Attack Set 상세

Attack Set list을 클릭하면 개별 시드 단위의 상세 결과 화면으로 이동합니다.

1. Header 영역


① 좌측 정보

  • Target Model
  • Sampling Method
  • Count per Taxonomy

② 우측 지표

  • Total (Safe / Unsafe 비율)
  • Average Loop Count
  • Max Red Teaming Run
  • Unsafety Count by Strategy

2. Taxonomy 탭

각 Taxonomy별 결과가 탭으로 구분되어 표시됩니다.


컬럼설명
IDSeed 번호
Seed원본 시드
ResultSafe / Unsafe
High-risk Query생성된 공격 프롬프트
Answer모델 응답
Strategy사용된 공격 전략
Loop반복 횟수

3. Data Detail 패널

Seed row를 클릭하면 우측에 상세 정보가 표시됩니다.

  • Seed: 원본 시드
  • High-risk Query: 생성된 공격 프롬프트 (Unsafe 판정 시)
  • Defense Successes: 방어 성공 이력 (Safe 판정된 시도들)
Defense Successes 활용하기

최종적으로 Unsafe가 된 시드라 하더라도, 이전에 Safe로 방어한 이력이 있을 수 있습니다. 이 이력을 함께 확인하면 모델이 어떤 시도까지는 방어에 성공했고, 어떤 변형에서 뚫렸는지를 파악하는 데 도움이 됩니다.