자동 레드 티밍
Auto-Redteaming은 시드 문장을 바탕으로 공격 프롬프트를 자동 생성하고, 이를 통해 모델의 안전성과 취약성을 평가하는 자동화된 레드팀 시스템입니다.
여러 전략을 조합해 공격을 시도하고, Scorer가 응답을 정량적으로 평가하여 리포트를 제공합니다.
Step 1. TASK 생성 및 평가 수행
① 페이지 진입 및 Task 생성
-
Auto-Redteaming 기능 페이지로 이동합니다.
사전 등록된 리스트화면입니다. Auto-Redteaming은 TASK 생성 직후 자동 레드티밍이 수행됩니다. -
등록된 TASK가 없으면 상단의 + New Task를 클릭하여 새 TASK를 생성합니다.
② 평가 세팅
- Seed Only 템플릿을 다운로드하여 평가에 사용할 시드 문장(질의)을 작성합니다.
- 작성한 시드 파일을 업로드합니다.
- 평가 대상 Target Model / Agent를 선택합니다.
- 시드당 반복 공격 횟수(Max Red Teaming Runs)를 설정합니다.
- 공격 전략 분류(Taxonomy)를 선택합니다.
모든 필드를 입력한 후 Add Red Teaming Task를 클릭하면 프로젝트가 생성됩니다.
- Upload File: 평가용 시드 파일 업로드
- Target Model: 평가 대상 LLM 선택
- Max Red Teaming Runs: 시드당 반복 횟수 설정
- Select Taxonomy: 전략 분류 체계 선택
③ TASK 생성 및 실행
Add Red Teaming Task 클릭으로 Task 생성 완료와 동시에 평가를 수행합니다.
Step 2. 결과 확인
④ 평가 진행 중
- TASK 상태가 Red Teaming으로 표시됩니다.
- View Dataset / Progress를 클릭해 진행 상황과 실시간 로그(샘플링/시도 현황)를 확인합니다.
⑤ 평가 완료 및 리포트 확인
- 평가 완료 후 TASK 상세 화면에서 통계 기반 리포트를 자동 제공받습니다.
- 리포트는 전체 성과 요약과 주요 평가지표를 포함하며, 모델의 방어력을 Safe와 Unsafe로 직관적으로 파악할 수 있게 합니다.
리포트 주요 항목 예시:
- 모델명, 반복 횟수, Safe/Unsafe 비율
- 전략별·카테고리별 취약점 요약
📌 리포트는 모델의 안전성 추세 분석 및 취약 영역 파악에 활용됩니다.
⑥ 상세 결과 확인
- 각 시드 문장을 클릭하면 개별 평가 로그(반복 시도, 평가 점수, 사용 전략, Target 응답 등)를 확인할 수 있습니다.
- 반복적으로 Unsafe 판정을 받은 시드를 우선 분석해 대응 전략을 마련하거나 모델 개선 포인트로 활용하세요.
📌 반복적으로 Unsafe 판정을 받은 시드 문장을 중심으로 대응 전략을 수립하거나, 문제 유형별 성능 개선에 활용할 수 있습니다.
