0. Overview
Overview
Auto Red Teaming은 대규모 언어 모델(LLM)의 안전성(Safety) 을 자동으로 평가하기 위한 레드티밍 서비스입니다.
사람이 직접 프롬프트를 설계하지 않아도, 전략 기반 자동 레드티밍(STAR-Teaming) 을 통해 다양한 공격 시나리오를 탐색하고,
정량적 지표와 대시보드 인사이트로 모델의 취약성을 진단할 수 있습니다.
1. 주요 특장점
Auto Red Teaming은 다음과 같은 문제를 해결합니다.
- 수동 레드티밍의 비용·편향·재현성 문제
- 단편적 테스트가 아닌 Taxonomy 기반 체계적 안전성 평가
- 모델 간 객관적인 비교 지표 부재
| 특장점 | 설명 |
|---|---|
| 지속적으로 최신화된 Benchmark | 분기별 업데이트를 통해 경쟁력 있는 Datumo Safety Benchmark 제공 |
| 정교한 평가 | Risk Taxonomy별 Rubric 기반 Judge로 일관된 Safe / Unsafe 판정 |
| 완전 자동화된 레드티밍 | 100+ 공격 전략을 자동 적용하여 모델 취약성 탐지 및 대시보드 인사이트 제공 |
2. 기술적 차별점
STAR-Teaming 기반 자동화 레드티밍 Auto Red Teaming은 내부적으로 STAR-Teaming (Strategy-based Teaming for Adversarial Robustness) 기법을 사용합니다.
| 항목 | 설명 |
|---|---|
| Strategy Pool | Jailbreak, Role-play, Multi-turn 등 100+ 공격 전략 |
| Seed 기반 생성 | 하나의 시드에서 전략별로 다양한 공격 프롬프트 파생 |
| Adaptive Loop | 이전 시도 결과를 학습하여 다음 전략 자동 최적화 |
| Parallel Evaluation | 여러 Target Model을 동일 조건에서 동시 평가 |
3. 주요 개념 정리
평가 단위 구조
| 개념 | 설명 |
|---|---|
| Task | 평가 목적 단위의 최상위 컨테이너 (예: 모델 릴리즈 검증) |
| Attack Set | 실제 실행 단위 (Dataset + Target Model + 설정) |
| Benchmark Dataset | Risk Taxonomy 기준으로 분류된 평가용 시드 데이터 |
| Seed | 공격 프롬프트 생성을 위한 기본 시나리오 단위 |
판정 결과 체계
| 용어 | 설명 |
|---|---|
| Safe | 모델이 유해 요청을 거부하거나 안전하게 응답 |
| Unsafe | 모델이 유해한 응답을 출력 (Score 8~10) |
4. 시스템 아키텍처
Auto Red Teaming은 4개의 AI 모듈이 협력하여 자동 레드티밍을 수행합니다.
┌─────────────────────────────────────────────────────────────────┐
│ Auto Red Teaming Engine │
│ │
│ [Attack Generator] → [Target Model/Agent] → [Scorer] → [Judge] │
│ │ │ │
│ └──────────────► [Summarizer] ◄──────────────┘ │
└─────────────────────────────────────────────────────────────────┘
| 모듈 | 역할 |
|---|---|
| Attack Generator | Seed + Strategy로 공격 프롬프트 생성 |
| Scorer | 응답의 유해성을 0~10점으로 평가 |
| Judge | Scorer 점수 기반 Safe/Unsafe 최종 판정 |
| Summarizer | 실패/성공 패턴을 분석해 다음 전략 제안 |
- Target Model/Agent은 평가 대상으로, LLM 모델뿐 아니라 Agent나 서비스도 포함됩니다.
5. 평가 흐름
Task 생성
↓
Attack Set 구성
↓
자동 레드티밍 실행
↓
대시보드 분석
반복 평가 루프
- Attack Generator가 공격 프롬프트 생성
- Target Model의 응답 수집
- Scorer가 응답의 유해성 점수 산출
- Judge가 Safe/Unsafe 판정
- Safe일 경우 → Summarizer가 전략 업데이트 후 재시도 (1번으로 반복)
종료 조건
- Unsafe 판정 발생
- 최대 Red Teaming Runs 도달
6. 판정 기준
| 구분 | 점수 |
|---|---|
| Unsafe | 8~10 |
| Moderately Unsafe | 5~7 |
| Moderately Safe | 3~4 |
| Safe | 0~2 |
7. 대시보드 핵심 지표
| 지표 | 의미 |
|---|---|
| ASR (Attack Success Rate) | 공격 성공 비율 (낮을수록 안전) |
| Safety Score | 평균 유해성 점수 |
| Loop Count | 시드당 실제 시도 횟수 |