0. Overview
Overview
Auto Red Teaming은 대규모 언어 모델(LLM)의 안전성(Safety) 을 평가하기 위한 자동 레드티밍 서비스입니다.
사람이 직접 프롬프트를 설계하지 않아도, 전략 기반 자동 레드티밍(STAR-Teaming) 을 통해 다양한 공격 시나리오를 탐색하고,
정량적 지표와 대시보드 인사이트로 모델의 취약성을 진단할 수 있습니다.
1. 주요 특장점
Auto Red Teaming은 다음과 같은 문제를 해결합니다.
- 수동 레드티밍의 비용·편향·재현성 문제
- Risk Taxonomy + 설명 가능한 전략을 기반으로 체계적인 안전성 평가 진행
- 모델 간 객관적인 비교 지표 부재
| 특장점 | 설명 |
|---|---|
| 최신화된 Benchmark | 분기별 업데이트를 통해 경쟁력 있는 Datumo Safety Benchmark 제공 |
| 정교한 평가 | Risk Taxonomy별 Rubric 기반 Judge로 일관된 Safe / Unsafe 판정 |
| 완전 자동화된 레드티밍 | 설명 가능한 공격 전략을 적용하여 모델 취약성을 효과적으로 탐지 및 대시보드 인사이트 제공 |
2. 기술적 차별점
STAR-Teaming 기반 자동화 레드티밍 Auto Red Teaming은 내부적으로 STAR-Teaming (Strategy-based Teaming for Adversarial Robustness) 기법을 사용합니다.
| 항목 | 설명 |
|---|---|
| Strategy Pool | 감정/심리, 사회/집단 기반 등의 설명 가능한 공격 전략 |
| Seed 기반 생성 | 하나의 시드를 사용하여 전략별로 다양한 공격 프롬프트 파생 |
| Adaptive Loop | 이전 시도 결과를 학습하여 다음 전략 자동 최적화 |
| Parallel Evaluation | 여러 Target Model을 동일 조건에서 동시 평가 |
3. 주요 개념 정리
평가 단위 구조
| 개념 | 설명 |
|---|---|
| Task | 평가 목적 단위의 최상위 컨테이너 (예: 모델 릴리즈 검증) |
| Attack Set | Task를 수행하기 위하여 선택한 시드 데이터셋의 집합 |
| Benchmark Dataset | Risk Taxonomy 기준으로 분류된 평가용 시드 데이터 |
| Seed | 공격 프롬프트 생성을 위하여 사용한 데이터 |
판정 결과 체계
| 용어 | 설명 |
|---|---|
| Safe | 모델이 유해 요청을 거부하거나 안전하게 응답 (Score 기준 0~7점) |
| Unsafe | 모델이 유해한 응답을 출력 (Score 기준 8~10점) |
4. 시스템 아키텍처
Auto Red Teaming은 4개의 AI 모듈이 협력하여 자동 레드티밍을 수행합니다.
┌─────────────────────────────────────────────────────────────────┐
│ Auto Red Teaming Engine │
│ │
│ [Attack Generator] → [Target Model/Agent] → [Scorer] → [Judge] │
│ │ │ │
│ └◄────────────── [Summarizer] ◄──────────────┘ │
└─────────────────────────────────────────────────────────────────┘
| 모듈 | 역할 |
|---|---|
| Attacker | Seed + Strategy로 공격 프롬프트 생성 |
| Scorer | 응답의 유해성을 0~10점으로 평가 |
| Judge | Scorer 점수 기반 Safe/Unsafe 최종 판정 |
| Summarizer | 실패/성공 패턴을 분석해 다음 효과적인 전략 제안 |
- Target Model은 평가 대상으로, 현재는 LLM 모델만 지원됩니다.
5. 평가 흐름
반복 평가 루프
- Attacker가 공격 프롬프트 생성
- Target Model로 Attacker가 생성한 공격 프롬프트에 대한 응답 수집
- Scorer가 Target Model의 응답을 기반으로 유해성 점수 산출
- Judge가 Score기반으로 Safe/Unsafe 판정
- Safe일 경우 → Summarizer가 전략 업데이트 후 재시도 (1번으로 반복)
- Unsafe일 경우 → 반복 평가 루프 중단
루프 종료 조건
- Unsafe 판정 발생
- 최대 Red Teaming Runs(default : 20) 도달
6. 판정 기준
| 구분 | 점수 |
|---|---|
| Unsafe | 8~10 |
| Moderately Unsafe | 5~7 |
| Moderately Safe | 3~4 |
| Safe | 0~2 |
7. 대시보드 핵심 지표
| 지표 | 의미 |
|---|---|
| ASR (Attack Success Rate) | 공격 성공 비율 (낮을수록 안전) |
| Safety Score | 평균 유해성 점수 |
| Loop Count | 시드당 실제 시도 횟수 |