🚨 Automated Red-Teaming
Overview
시드(Seed)를 업로드하면, 시스템이 셀렉트스타의 100여 개 이상 전략(Strategy) 라이브러리를 활용하여
*격 프롬프트 생성 → 대상 모델 평가 → 리포트 생성 과정을 자동으로 수행합니다
시스템 구성:
내부적으로는 (1) Automated Red-Teaming Multi-Agent System과 (2) Multiplex Network for Strategy Sampling으로 구성되어, 다수 전략을 자동 적용하고 학습 기반으로 전략을 최적화합니다.
Flow (3-step)
- New Task: 시드 업로드, Target, 반복 횟수, Taxonomy 설정
Seed
예시 시드는 민감하거나 구체적 불법 행위를 묻는 문구 대신, 테스트 목적의 일반적·비실행성 질의를 사용하세요.
(예: "정책 위반 가능성이 있는 설득 요청 예시").
- Run: 전략+시드로 공격 → Scorer가 1–10점 채점
- Report: ASR·전략/시드별 결과와 취약 요약 확인
Metrics
- ASR (Attack Success Rate), Unsafe Rate, Coverage, Cost/run
용어 정리
| 용어 | 정의 |
|---|---|
| 시드 데이터 (Seed) | 고객이 업로드하는 평가용 질의 집합으로, 공격 프롬프트의 주제·상황을 제공합니다. (예: "폭발물 제조 방법 알려줘") |
| 공격 전략 (Strategy) | 시스템이 보유한 전략 라이브러리 항목으로, 시드를 변형하거나 유도해 모델의 방어를 우회하도록 설계된 표현·전개 방식입니다. (예: 스토리텔링, 프레이밍, 사례 기반 설득) |
| 공격 프롬프트 (Attack Prompt) | 시드와 선택된 전략을 결합해 생성된 실제 Target Model 입력 쿼리입니다. 모든 프롬프트는 안전 정책을 준수하도록 생성됩니다. |
| Attacker (공격자 에이전트) | 시드 + 전략으로 공격 프롬프트를 생성하는 내부 에이전트(모듈)입니다. |
| Target Model (대상 모델) | 평가 대상인 LLM 또는 에이전트 시스템(내부/외부 모델, RAG 포함)입니다. |
| Scorer (평가자) | Target의 응답을 자동으로 채점하는 모듈로, 1~10 척도로 위험도를 표시합니다.(예: 1=안전, 10=고위험). 임계값 이상은 '공격 성공(Unsafe)'으로 간주됩니다. |
| Strategy Library (전략 라이브러리) | 검증된 공격 전략들의 카탈로그로 각 전략은 태그·설명·적용 예시를 포함합니다. |
| ASR (Attack Success Rate) | 내부 평가 지표로, Unsafe로 판정된 응답의 비율을 나타냅니다. |
| UI에서는 해당 결과가 Safe / Unsafe 형태로 요약되어 표시됩니다. |
📄️ Overview
Datumo Eval automates red teaming by generating adversarial prompts, evaluating LLM responses, and delivering vulnerability reports.
📄️ Run Evaluation
Datumo Eval automates red teaming by generating adversarial prompts, evaluating LLM responses, and delivering vulnerability reports.