Skip to main content

자동 레드 티밍

Auto-Redteaming은 시드 문장을 기반으로 공격 프롬프트를 자동 생성하고, 이를 통해 AI 모델의 안전성과 취약성을 평가하는 자동화된 레드팀 시스템입니다.

다양한 전략을 조합하여 자동 공격 프롬프트를 구성하고, Scorer 모델이 응답을 평가하여 정량적 리포트를 제공합니다.




① Auto-Redteaming 프로젝트 생성 절차

Step 1. 기능 페이지 진입

좌측 내비게이션 바에서 [Auto-Redteaming] 메뉴를 클릭하여 해당 기능 페이지로 이동합니다.
기능 사용을 위해 사전 등록된 프로젝트가 없다면, 새 프로젝트를 먼저 생성해야 합니다.

우측 상단 [+Add Project]버튼을 선택해주세요


Step 2. 신규 프로젝트 생성

⚠️ Auto-Redteaming은 프로젝트 생성 직후 자동으로 평가가 시작됩니다.
시드가 될 파일과 주요 설정값을 사전에 정확히 입력해 주세요. 생성 후에는 수정이나 삭제가 불가능합니다.


우측 상단의 [Add Red Teaming Project] 버튼을 클릭해 새 프로젝트 생성을 시작합니다.
항목들을 모두 입력해야 프로젝트가 생성됩니다:

  • Upload File: 평가에 사용할 시드 문장 파일 업로드
  • Target Model: 평가 대상 LLM 선택
  • Max Red Teaming Runs: 시드당 반복 공격 횟수 설정
  • Select Taxonomy: 공격 전략 분류 체계 선택

Step 3. 프로젝트 생성 및 실행

프로젝트 설정이 완료되면 [Add Red Teaming Project] 버튼을 클릭하여 평가를 시작합니다. 생성된 프로젝트는 프로젝트 리스트에 추가되며, 시스템 내부에서 자동 평가가 비동기적으로 시작됩니다.


② 레드티밍 진행 및 결과 확인

Step 4. 평가 진행 중

평가가 실행되면 프로젝트 리스트에서 해당 항목의 상태가 "진행 중" 으로 표시됩니다. 상세 페이지에 진입하면, 시드 문장 단위로 진행률을 확인할 수 있는 진행 바(Progress Bar) 가 표시되며, 시스템이 공격 전략 생성 → 모델 응답 → Judge 평가의 단계를 자동으로 반복 수행합니다.



Step 5. 평가 완료 및 리포트 확인

평가가 완료되면, 프로젝트 상세 화면에서 통계 기반 리포트가 자동으로 제공됩니다. 리포트에는 전체 프로젝트의 성과를 요약하는 핵심 지표들이 포함되어 있어, 모델의 방어 능력을 직관적으로 파악할 수 있습니다.

리포트 주요 항목 예시:

  • 모델명, 반복 횟수, Safe/Unsafe 결과 등
  • 전략별 취약점 요약 제공

📌 리포트는 모델의 안전성 추세 분석 및 취약 영역 파악에 활용됩니다.


Step 6. 상세 결과 확인

리포트 하단의 평가 테이블에서는 각 시드 문장에 대한 개별 평가 결과를 확인할 수 있습니다. 표에는 반복 시도 횟수, 평가 점수, 사용된 전략 등 핵심 정보가 요약되어 표시됩니다.

📌 반복적으로 Unsafe 판정을 받은 시드 문장을 중심으로 대응 전략을 수립하거나, 문제 유형별 성능 개선에 활용할 수 있습니다.