1. 레드티밍 평가 실행 (Run Attack Set)

Overview

Attack Set이 생성되면 자동 레드티밍 평가가 실행되며, 다양한 레드티밍 전략을 자동 적용하여 모델의 안전성을 검증합니다.

화면 구성

Auto Red Teaming은 Task → Attack Set → Result 구조로 구성됩니다.

화면	설명	주요 동작
Task 목록	생성된 Task 목록과 전체 상태 표시	Task 생성 / Task 선택
Task 상세 - Dashboard 탭	Task 단위의 전체 결과 요약	모델별 결과 비교, 상세 결과 확인
Task 상세 - Attack Set 탭	Task에 포함된 Attack Set 목록	Attack Set / Auto Red Teaming Run 상태 확인
Attack Set 상세	개별 Attack Set의 실행 상태 및 결과	Auto Red Teaming 결과 확인

Step 1. Task 생성

Task는 평가(Evaluation)를 하고자 하는 관리 페이지의 기본 단위이자 여러 Attack Set을 묶는 컨테이너 역할을 합니다

① + New Task 클릭

Task 목록 우측 상단의 + New Task 버튼을 클릭합니다.

② Task 정보 입력

항목	설명
Task Name (필수)	Task 이름 (최대 255자)
Description (선택)	Task 설명 (최대 1,000자)

③ Complete

Complete 버튼을 클릭하면 Task가 생성되고 목록으로 이동합니다.

Step 2. Attack Set 생성

Attack Set은 실제 레드티밍 평가가 수행되는 실행 단위입니다. Task 상세 화면에서 Attack Set을 추가하면, 설정 완료 후 평가가 자동 실행됩니다.

① Task 상세 진입

Task 목록에서 원하는 Task row를 클릭하여 Task 상세 화면으로 이동합니다.

② + Add Attack Set 클릭

Attack Set 탭에서 + Add Attack Set 버튼을 클릭합니다.

Attack Set 생성 모달은 다음과 같이 구성됩니다.

좌측 영역: 평가에 사용할 Benchmark Dataset 선택
우측 영역: Attack Set 실행을 위한 평가 설정 입력

③ Dataset 선택 (좌측)

레드티밍 평가에 사용할 Benchmark Dataset을 선택합니다.

Dataset은 Risk Taxonomy 기준으로 구성된 Seed 집합입니다.
검색을 통해 Dataset 목록을 필터링할 수 있습니다.

④ 설정 입력 (우측)

단계	항목	설명
1	Attack Set Name / Description	이름(필수), 설명(선택)
2	Target Model/Agent	평가 대상 모델 (다중 선택 가능)
3	Max Red Teaming Runs	시드당 최대 공격 횟수 (기본 20, 최대 50)
4	Evaluation Sampling Method	(샘플링 진행 시) 데이터셋 샘플링 방식 선택

📂 Sampling Method 상세

옵션	설명
Equal Sample Count per Taxonomy	Taxonomy별 Seed 수를 동일하게 Sampling하여 평가
Evaluate All Data	Dataset에 포함된 모든 Seed를 평가

정보

Benchmark Dataset은 Taxonomy별로 포함된 Seed 수가 서로 다를 수 있습니다.
Evaluation Sampling Method는 이러한 차이를 어떤 기준으로 평가에 반영할지를 선택하는 옵션입니다.

정보

여러 모델을 선택하면,
동일한 Dataset과 설정을 공유하는 Attack Set이 모델별로 각각 생성되어
결과를 직접 비교할 수 있습니다.

Step 3. 평가 실행

Attack Set 설정이 완료되면, 레드티밍 평가를 실행할 수 있습니다.

① Complete 클릭

설정 완료 후 Complete 버튼을 클릭하면 평가 실행 전 최종 확인 모달이 표시됩니다.

실행 전 확인

평가 시작 후 일시정지 또는 중지할 수 없습니다.
실행 시간은 선택한 Dataset 크기와 설정에 따라 달라질 수 있습니다.

② Proceed 클릭

Proceed를 클릭하면 레드티밍 평가가 즉시 시작됩니다.
평가가 시작되면 Attack Set 상태가 **In Progress (Red teaming in progress)**로 표시되며,
페이지를 이탈해도 평가는 백그라운드에서 계속 실행됩니다.

③ 실행 상태 확인

평가 진행 상태는 Attack Set 목록과 상세 화면에서 확인할 수 있습니다.

상태	설명
Waiting	대기 중
In Progress	진행 중 (진행률 표시)
Done	완료
Error	오류

백그라운드 실행

평가 실행 후 페이지를 이동하거나 창을 닫아도 실행 중인 평가는 중단되지 않습니다.

Step 4. 관리 기능

Auto Red Teaming에서는 평가 결과의 재현성과 무결성을 보장하기 위해
Task와 Attack Set에 대해 제한적인 관리 기능만 제공합니다.

1. Task 관리

Task는 여러 Attack Set을 묶는 상위 단위로, Task 단위의 수정·삭제는 하위 Attack Set 상태에 따라 제한됩니다.

① Task 수정

Task 목록 화면에서 Edit 버튼을 클릭하여 Task의 Name / Description을 수정할 수 있습니다.

평가 실행 여부와 관계없이 수정 가능
평가 결과에는 영향을 주지 않습니다

② Task 삭제

삭제 조건

Task 삭제는 Task 목록 화면에서 수행됩니다.

Task에 포함된 모든 Attack Set이 Done 상태일 때만 삭제할 수 있습니다.
삭제 시 해당 Task에 포함된 모든 Attack Set과 평가 결과 데이터가 함께 삭제됩니다.
삭제된 데이터는 복구할 수 없습니다.

💡 실행 중이거나 미완료된 평가가 존재할 경우, 결과의 무결성을 보호하기 위해 Task 삭제가 제한됩니다.

2. Attack Set 관리

Attack Set은 실제 레드티밍 평가가 수행되는 실행 단위로, 평가 조건의 변경은 허용되지 않습니다.

항목	관리 가능 여부	설명
Name / Description	수정 가능	식별 및 관리 목적
Dataset	수정 불가	평가 재현성 보장
Target Model / Agent	수정 불가	비교 신뢰성 보장
Sampling Method	수정 불가	결과 일관성 유지
삭제	`Done` 상태에서만 가능	실행 중 보호

💡 Attack Set 삭제는 Task 상세 > Attack Set 탭의 개별 row에서 수행됩니다.

화면 구성​

Step 1. Task 생성​

① + New Task 클릭​

② Task 정보 입력​

③ Complete​

Step 2. Attack Set 생성​

① Task 상세 진입​

② + Add Attack Set 클릭​

③ Dataset 선택 (좌측)​

④ 설정 입력 (우측)​

Step 3. 평가 실행​

① Complete 클릭​

② Proceed 클릭​

③ 실행 상태 확인​

Step 4. 관리 기능​

1. Task 관리​

① Task 수정​

② Task 삭제​

2. Attack Set 관리​