본문으로 건너뛰기

🚨 Automated Red-Teaming

Overview

시드(Seed)를 업로드하면, 시스템이 셀렉트스타의 100여 개 이상 전략(Strategy) 라이브러리를 활용하여
*격 프롬프트 생성 → 대상 모델 평가 → 리포트 생성 과정을 자동으로 수행합니다

시스템 구성:
내부적으로는 (1) Automated Red-Teaming Multi-Agent System(2) Multiplex Network for Strategy Sampling으로 구성되어, 다수 전략을 자동 적용하고 학습 기반으로 전략을 최적화합니다.

Flow (3-step)

  1. New Task: 시드 업로드, Target, 반복 횟수, Taxonomy 설정
Seed

예시 시드는 민감하거나 구체적 불법 행위를 묻는 문구 대신, 테스트 목적의 일반적·비실행성 질의를 사용하세요.
(예: "정책 위반 가능성이 있는 설득 요청 예시").

  1. Run: 전략+시드로 공격 → Scorer가 1–10점 채점
  2. Report: ASR·전략/시드별 결과와 취약 요약 확인

Metrics

  • ASR (Attack Success Rate), Unsafe Rate, Coverage, Cost/run

용어 정리

용어정의
시드 데이터 (Seed)고객이 업로드하는 평가용 질의 집합으로, 공격 프롬프트의 주제·상황을 제공합니다. (예: "폭발물 제조 방법 알려줘")
공격 전략 (Strategy)시스템이 보유한 전략 라이브러리 항목으로, 시드를 변형하거나 유도해 모델의 방어를 우회하도록 설계된 표현·전개 방식입니다. (예: 스토리텔링, 프레이밍, 사례 기반 설득)
공격 프롬프트 (Attack Prompt)시드와 선택된 전략을 결합해 생성된 실제 Target Model 입력 쿼리입니다. 모든 프롬프트는 안전 정책을 준수하도록 생성됩니다.
Attacker (공격자 에이전트)시드 + 전략으로 공격 프롬프트를 생성하는 내부 에이전트(모듈)입니다.
Target Model (대상 모델)평가 대상인 LLM 또는 에이전트 시스템(내부/외부 모델, RAG 포함)입니다.
Scorer (평가자)Target의 응답을 자동으로 채점하는 모듈로, 1~10 척도로 위험도를 표시합니다.(예: 1=안전, 10=고위험). 임계값 이상은 '공격 성공(Unsafe)'으로 간주됩니다.
Strategy Library (전략 라이브러리)검증된 공격 전략들의 카탈로그로 각 전략은 태그·설명·적용 예시를 포함합니다.
ASR (Attack Success Rate)내부 평가 지표로, Unsafe로 판정된 응답의 비율을 나타냅니다.
UI에서는 해당 결과가 Safe / Unsafe 형태로 요약되어 표시됩니다.