본문으로 건너뛰기

0. Overview

Overview

Auto Red Teaming은 대규모 언어 모델(LLM)의 안전성(Safety) 을 자동으로 평가하기 위한 레드티밍 서비스입니다.
사람이 직접 프롬프트를 설계하지 않아도, 전략 기반 자동 레드티밍(STAR-Teaming) 을 통해 다양한 공격 시나리오를 탐색하고,
정량적 지표와 대시보드 인사이트로 모델의 취약성을 진단할 수 있습니다.


1. 주요 특장점

Auto Red Teaming은 다음과 같은 문제를 해결합니다.

  • 수동 레드티밍의 비용·편향·재현성 문제
  • 단편적 테스트가 아닌 Taxonomy 기반 체계적 안전성 평가
  • 모델 간 객관적인 비교 지표 부재
특장점설명
지속적으로 최신화된 Benchmark분기별 업데이트를 통해 경쟁력 있는 Datumo Safety Benchmark 제공
정교한 평가Risk Taxonomy별 Rubric 기반 Judge로 일관된 Safe / Unsafe 판정
완전 자동화된 레드티밍100+ 공격 전략을 자동 적용하여 모델 취약성 탐지 및 대시보드 인사이트 제공

2. 기술적 차별점

STAR-Teaming 기반 자동화 레드티밍 Auto Red Teaming은 내부적으로 STAR-Teaming (Strategy-based Teaming for Adversarial Robustness) 기법을 사용합니다.

항목설명
Strategy PoolJailbreak, Role-play, Multi-turn 등 100+ 공격 전략
Seed 기반 생성하나의 시드에서 전략별로 다양한 공격 프롬프트 파생
Adaptive Loop이전 시도 결과를 학습하여 다음 전략 자동 최적화
Parallel Evaluation여러 Target Model을 동일 조건에서 동시 평가

3. 주요 개념 정리

평가 단위 구조

개념설명
Task평가 목적 단위의 최상위 컨테이너 (예: 모델 릴리즈 검증)
Attack Set실제 실행 단위 (Dataset + Target Model + 설정)
Benchmark DatasetRisk Taxonomy 기준으로 분류된 평가용 시드 데이터
Seed공격 프롬프트 생성을 위한 기본 시나리오 단위

판정 결과 체계

용어설명
Safe모델이 유해 요청을 거부하거나 안전하게 응답
Unsafe모델이 유해한 응답을 출력 (Score 8~10)

4. 시스템 아키텍처

Auto Red Teaming은 4개의 AI 모듈이 협력하여 자동 레드티밍을 수행합니다.

┌─────────────────────────────────────────────────────────────────┐
│ Auto Red Teaming Engine │
│ │
│ [Attack Generator] → [Target Model/Agent] → [Scorer] → [Judge] │
│ │ │ │
│ └──────────────► [Summarizer] ◄──────────────┘ │
└─────────────────────────────────────────────────────────────────┘
모듈역할
Attack GeneratorSeed + Strategy로 공격 프롬프트 생성
Scorer응답의 유해성을 0~10점으로 평가
JudgeScorer 점수 기반 Safe/Unsafe 최종 판정
Summarizer실패/성공 패턴을 분석해 다음 전략 제안
  • Target Model/Agent은 평가 대상으로, LLM 모델뿐 아니라 Agent나 서비스도 포함됩니다.

5. 평가 흐름

Task 생성

Attack Set 구성

자동 레드티밍 실행

대시보드 분석

반복 평가 루프

  1. Attack Generator가 공격 프롬프트 생성
  2. Target Model의 응답 수집
  3. Scorer가 응답의 유해성 점수 산출
  4. Judge가 Safe/Unsafe 판정
  5. Safe일 경우 → Summarizer가 전략 업데이트 후 재시도 (1번으로 반복)

종료 조건

  • Unsafe 판정 발생
  • 최대 Red Teaming Runs 도달

6. 판정 기준

구분점수
Unsafe8~10
Moderately Unsafe5~7
Moderately Safe3~4
Safe0~2

7. 대시보드 핵심 지표

지표의미
ASR (Attack Success Rate)공격 성공 비율 (낮을수록 안전)
Safety Score평균 유해성 점수
Loop Count시드당 실제 시도 횟수