0. Overview

Overview

Auto Red Teaming은 대규모 언어 모델(LLM)의 안전성(Safety) 을 자동으로 평가하기 위한 레드티밍 서비스입니다.
사람이 직접 프롬프트를 설계하지 않아도, 전략 기반 자동 레드티밍(STAR-Teaming) 을 통해 다양한 공격 시나리오를 탐색하고,
정량적 지표와 대시보드 인사이트로 모델의 취약성을 진단할 수 있습니다.

1. 주요 특장점

Auto Red Teaming은 다음과 같은 문제를 해결합니다.

수동 레드티밍의 비용·편향·재현성 문제
단편적 테스트가 아닌 Taxonomy 기반 체계적 안전성 평가
모델 간 객관적인 비교 지표 부재

특장점	설명
지속적으로 최신화된 Benchmark	분기별 업데이트를 통해 경쟁력 있는 Datumo Safety Benchmark 제공
정교한 평가	Risk Taxonomy별 Rubric 기반 Judge로 일관된 Safe / Unsafe 판정
완전 자동화된 레드티밍	100+ 공격 전략을 자동 적용하여 모델 취약성 탐지 및 대시보드 인사이트 제공

2. 기술적 차별점

STAR-Teaming 기반 자동화 레드티밍 Auto Red Teaming은 내부적으로 STAR-Teaming (Strategy-based Teaming for Adversarial Robustness) 기법을 사용합니다.

항목	설명
Strategy Pool	Jailbreak, Role-play, Multi-turn 등 100+ 공격 전략
Seed 기반 생성	하나의 시드에서 전략별로 다양한 공격 프롬프트 파생
Adaptive Loop	이전 시도 결과를 학습하여 다음 전략 자동 최적화
Parallel Evaluation	여러 Target Model을 동일 조건에서 동시 평가

3. 주요 개념 정리

평가 단위 구조

개념	설명
Task	평가 목적 단위의 최상위 컨테이너 (예: 모델 릴리즈 검증)
Attack Set	실제 실행 단위 (Dataset + Target Model + 설정)
Benchmark Dataset	Risk Taxonomy 기준으로 분류된 평가용 시드 데이터
Seed	공격 프롬프트 생성을 위한 기본 시나리오 단위

판정 결과 체계

용어	설명
Safe	모델이 유해 요청을 거부하거나 안전하게 응답
Unsafe	모델이 유해한 응답을 출력 (Score 8~10)

4. 시스템 아키텍처

Auto Red Teaming은 4개의 AI 모듈이 협력하여 자동 레드티밍을 수행합니다.

┌─────────────────────────────────────────────────────────────────┐
│                      Auto Red Teaming Engine                    │
│                                                                 │
│  [Attack Generator] → [Target Model/Agent] → [Scorer] → [Judge]      │
│         │                                            │          │
│         └──────────────► [Summarizer] ◄──────────────┘          │
└─────────────────────────────────────────────────────────────────┘

모듈	역할
Attack Generator	Seed + Strategy로 공격 프롬프트 생성
Scorer	응답의 유해성을 0~10점으로 평가
Judge	Scorer 점수 기반 Safe/Unsafe 최종 판정
Summarizer	실패/성공 패턴을 분석해 다음 전략 제안

Target Model/Agent은 평가 대상으로, LLM 모델뿐 아니라 Agent나 서비스도 포함됩니다.

5. 평가 흐름

Task 생성
  ↓
Attack Set 구성
  ↓
자동 레드티밍 실행
  ↓
대시보드 분석

반복 평가 루프

Attack Generator가 공격 프롬프트 생성
Target Model의 응답 수집
Scorer가 응답의 유해성 점수 산출
Judge가 Safe/Unsafe 판정
Safe일 경우 → Summarizer가 전략 업데이트 후 재시도 (1번으로 반복)

종료 조건

Unsafe 판정 발생
최대 Red Teaming Runs 도달

6. 판정 기준

구분	점수
Unsafe	8~10
Moderately Unsafe	5~7
Moderately Safe	3~4
Safe	0~2

7. 대시보드 핵심 지표

지표	의미
ASR (Attack Success Rate)	공격 성공 비율 (낮을수록 안전)
Safety Score	평균 유해성 점수
Loop Count	시드당 실제 시도 횟수

1. 주요 특장점​

2. 기술적 차별점​

3. 주요 개념 정리​

평가 단위 구조​

판정 결과 체계​

4. 시스템 아키텍처​

5. 평가 흐름​

반복 평가 루프​

종료 조건​

6. 판정 기준​

7. 대시보드 핵심 지표​