본문으로 건너뛰기

1. 레드티밍 평가 실행 (Run Attack Set)

Overview

Attack Set이 생성되면 자동 레드티밍 평가가 실행되며, 다양한 레드티밍 전략을 자동 적용하여 모델의 안전성을 검증합니다.


화면 구성

Auto Red Teaming은 Task → Attack Set → Result 구조로 구성됩니다.

화면설명주요 동작
Task 목록생성된 Task 목록과 전체 상태 표시Task 생성 / Task 선택
Task 상세 - Dashboard 탭Task 단위의 전체 결과 요약모델별 결과 비교
Task 상세 - Attack Set 탭Task에 포함된 Attack Set 목록Attack Set 생성 / 상태 확인
Attack Set 상세개별 Attack Set의 실행 상태 및 결과결과 확인

Step 1. Task 생성

Task는 여러 Attack Set을 묶는 컨테이너 역할을 합니다.


① + New Task 클릭

Task 목록 우측 상단의 + New Task 버튼을 클릭합니다.

② Task 정보 입력

항목설명
Task Name (필수)Task 이름 (최대 255자)
Description (선택)Task 설명 (최대 1,000자)

③ Complete

Complete 버튼을 클릭하면 Task가 생성되고 목록으로 이동합니다.


Step 2. Attack Set 생성

Attack Set은 실제 레드티밍 평가가 수행되는 실행 단위입니다. Task 상세 화면에서 Attack Set을 추가하면, 설정 완료 후 평가가 자동 실행됩니다.

① Task 상세 진입

Task 목록에서 원하는 Task row를 클릭하여 Task 상세 화면으로 이동합니다.


② + Add Attack Set 클릭

Attack Set 탭에서 + Add Attack Set 버튼을 클릭합니다.



Attack Set 생성 모달은 다음과 같이 구성됩니다.

  • 좌측 영역: 평가에 사용할 Benchmark Dataset 선택
  • 우측 영역: Attack Set 실행을 위한 평가 설정 입력

③ Dataset 선택 (좌측)

레드티밍 평가에 사용할 Benchmark Dataset을 선택합니다.

  • Dataset은 Risk Taxonomy 기준으로 구성된 Seed 집합입니다.
  • 검색을 통해 Dataset 목록을 필터링할 수 있습니다.

④ 설정 입력 (우측)

단계항목설명
1Attack Set Name / Description이름(필수), 설명(선택)
2Target Model/Agent평가 대상 모델 (다중 선택 가능)
3Max Red Teaming Runs시드당 최대 공격 횟수 (기본 20, 최대 50)
4Evaluation Sampling Method샘플링 방식 선택

📂 Sampling Method 상세
옵션설명
Equal Sample Count per TaxonomyTaxonomy별 Seed 수를 동일하게 맞춰 평가
Evaluate All DataDataset에 포함된 모든 Seed를 평가

정보

Benchmark Dataset은 Taxonomy별로 포함된 Seed 수가 서로 다를 수 있습니다.
Evaluation Sampling Method는 이러한 차이를 어떤 기준으로 평가에 반영할지를 선택하는 옵션입니다.

정보

여러 모델을 선택하면,
동일한 Dataset과 설정을 공유하는 Attack Set이 모델별로 각각 생성되어
결과를 직접 비교할 수 있습니다.


Step 3. 평가 실행

Attack Set 설정이 완료되면, 레드티밍 평가를 실행할 수 있습니다.

① Complete 클릭

설정 완료 후 Complete 버튼을 클릭하면 평가 실행 전 최종 확인 모달이 표시됩니다.


실행 전 확인
  • 평가 시작 후 일시정지 또는 중지할 수 없습니다.
  • 실행 시간은 선택한 Dataset 크기와 설정에 따라 달라질 수 있습니다.

② Proceed 클릭

Proceed를 클릭하면 레드티밍 평가가 즉시 시작됩니다.
평가가 시작되면 Attack Set 상태가 **In Progress (Red teaming in progress)**로 표시되며,
페이지를 이탈해도 평가는 백그라운드에서 계속 실행됩니다.


③ 실행 상태 확인

평가 진행 상태는 Attack Set 목록과 상세 화면에서 확인할 수 있습니다.

상태설명
Waiting대기 중
In Progress진행 중 (진행률 표시)
Done완료
Error오류

백그라운드 실행

평가 실행 후 페이지를 이동하거나 창을 닫아도 실행 중인 평가는 중단되지 않습니다.


Step 4. 관리 기능

Auto Red Teaming에서는 평가 결과의 재현성과 무결성을 보장하기 위해
Task와 Attack Set에 대해 제한적인 관리 기능만 제공합니다.

1. Task 관리

Task는 여러 Attack Set을 묶는 상위 단위로, Task 단위의 수정·삭제는 하위 Attack Set 상태에 따라 제한됩니다.

① Task 수정

Task 목록 화면에서 Edit 버튼을 클릭하여 Task의 Name / Description을 수정할 수 있습니다.

  • 평가 실행 여부와 관계없이 수정 가능
  • 평가 결과에는 영향을 주지 않습니다

② Task 삭제

삭제 조건

Task 삭제는 Task 목록 화면에서 수행됩니다.

  • Task에 포함된 모든 Attack Set이 Done 상태일 때만 삭제할 수 있습니다.
  • 삭제 시 해당 Task에 포함된 모든 Attack Set과 평가 결과 데이터가 함께 삭제됩니다.
  • 삭제된 데이터는 복구할 수 없습니다.

💡 실행 중이거나 미완료된 평가가 존재할 경우, 결과의 무결성을 보호하기 위해 Task 삭제가 제한됩니다.



2. Attack Set 관리

Attack Set은 실제 레드티밍 평가가 수행되는 실행 단위로, 평가 조건의 변경은 허용되지 않습니다.

항목관리 가능 여부설명
Name / Description수정 가능식별 및 관리 목적
Dataset수정 불가평가 재현성 보장
Target Model / Agent수정 불가비교 신뢰성 보장
Sampling Method수정 불가결과 일관성 유지
삭제Done 상태에서만 가능실행 중 보호

💡 Attack Set 삭제는 Task 상세 > Attack Set 탭의 개별 row에서 수행됩니다.