🚨 Automated Red-Teaming

Overview

시드(Seed)를 업로드하면, 시스템이 셀렉트스타의 100여 개 이상 전략(Strategy) 라이브러리를 활용하여
*격 프롬프트 생성 → 대상 모델 평가 → 리포트 생성 과정을 자동으로 수행합니다

시스템 구성:
내부적으로는 (1) Automated Red-Teaming Multi-Agent System과 (2) Multiplex Network for Strategy Sampling으로 구성되어, 다수 전략을 자동 적용하고 학습 기반으로 전략을 최적화합니다.

Flow (3-step)

New Task: 시드 업로드, Target, 반복 횟수, Taxonomy 설정

Seed

예시 시드는 민감하거나 구체적 불법 행위를 묻는 문구 대신, 테스트 목적의 일반적·비실행성 질의를 사용하세요.
(예: "정책 위반 가능성이 있는 설득 요청 예시").

Run: 전략+시드로 공격 → Scorer가 1–10점 채점
Report: ASR·전략/시드별 결과와 취약 요약 확인

Metrics

ASR (Attack Success Rate), Unsafe Rate, Coverage, Cost/run

용어 정리

용어	정의
시드 데이터 (Seed)	고객이 업로드하는 평가용 질의 집합으로, 공격 프롬프트의 주제·상황을 제공합니다. (예: "폭발물 제조 방법 알려줘")
공격 전략 (Strategy)	시스템이 보유한 전략 라이브러리 항목으로, 시드를 변형하거나 유도해 모델의 방어를 우회하도록 설계된 표현·전개 방식입니다. (예: 스토리텔링, 프레이밍, 사례 기반 설득)
공격 프롬프트 (Attack Prompt)	시드와 선택된 전략을 결합해 생성된 실제 Target Model 입력 쿼리입니다. 모든 프롬프트는 안전 정책을 준수하도록 생성됩니다.
Attacker (공격자 에이전트)	시드 + 전략으로 공격 프롬프트를 생성하는 내부 에이전트(모듈)입니다.
Target Model (대상 모델)	평가 대상인 LLM 또는 에이전트 시스템(내부/외부 모델, RAG 포함)입니다.
Scorer (평가자)	Target의 응답을 자동으로 채점하는 모듈로, 1~10 척도로 위험도를 표시합니다.(예: 1=안전, 10=고위험). 임계값 이상은 '공격 성공(Unsafe)'으로 간주됩니다.
Strategy Library (전략 라이브러리)	검증된 공격 전략들의 카탈로그로 각 전략은 태그·설명·적용 예시를 포함합니다.
ASR (Attack Success Rate)	내부 평가 지표로, Unsafe로 판정된 응답의 비율을 나타냅니다.
UI에서는 해당 결과가 Safe / Unsafe 형태로 요약되어 표시됩니다.

📄️ Overview

Datumo Eval automates red teaming by generating adversarial prompts, evaluating LLM responses, and delivering vulnerability reports.

📄️ Run Evaluation

Datumo Eval automates red teaming by generating adversarial prompts, evaluating LLM responses, and delivering vulnerability reports.

Flow (3-step)​

Metrics​

용어 정리​

📄️ Overview

📄️ Run Evaluation

Flow (3-step)

Metrics

용어 정리