본문으로 건너뛰기

0. Overview

Overview

Auto Red Teaming은 대규모 언어 모델(LLM)의 안전성(Safety) 을 평가하기 위한 자동 레드티밍 서비스입니다.
사람이 직접 프롬프트를 설계하지 않아도, 전략 기반 자동 레드티밍(STAR-Teaming) 을 통해 다양한 공격 시나리오를 탐색하고,
정량적 지표와 대시보드 인사이트로 모델의 취약성을 진단할 수 있습니다.


1. 주요 특장점

Auto Red Teaming은 다음과 같은 문제를 해결합니다.

  • 수동 레드티밍의 비용·편향·재현성 문제
  • Risk Taxonomy + 설명 가능한 전략을 기반으로 체계적인 안전성 평가 진행
  • 모델 간 객관적인 비교 지표 부재
특장점설명
최신화된 Benchmark분기별 업데이트를 통해 경쟁력 있는 Datumo Safety Benchmark 제공
정교한 평가Risk Taxonomy별 Rubric 기반 Judge로 일관된 Safe / Unsafe 판정
완전 자동화된 레드티밍설명 가능한 공격 전략을 적용하여 모델 취약성을 효과적으로 탐지 및 대시보드 인사이트 제공

2. 기술적 차별점

STAR-Teaming 기반 자동화 레드티밍 Auto Red Teaming은 내부적으로 STAR-Teaming (Strategy-based Teaming for Adversarial Robustness) 기법을 사용합니다.

항목설명
Strategy Pool감정/심리, 사회/집단 기반 등의 설명 가능한 공격 전략
Seed 기반 생성하나의 시드를 사용하여 전략별로 다양한 공격 프롬프트 파생
Adaptive Loop이전 시도 결과를 학습하여 다음 전략 자동 최적화
Parallel Evaluation여러 Target Model을 동일 조건에서 동시 평가

3. 주요 개념 정리

평가 단위 구조

개념설명
Task평가 목적 단위의 최상위 컨테이너 (예: 모델 릴리즈 검증)
Attack SetTask를 수행하기 위하여 선택한 시드 데이터셋의 집합
Benchmark DatasetRisk Taxonomy 기준으로 분류된 평가용 시드 데이터
Seed공격 프롬프트 생성을 위하여 사용한 데이터

판정 결과 체계

용어설명
Safe모델이 유해 요청을 거부하거나 안전하게 응답 (Score 기준 0~7점)
Unsafe모델이 유해한 응답을 출력 (Score 기준 8~10점)

4. 시스템 아키텍처

Auto Red Teaming은 4개의 AI 모듈이 협력하여 자동 레드티밍을 수행합니다.

┌─────────────────────────────────────────────────────────────────┐
│ Auto Red Teaming Engine │
│ │
│ [Attack Generator] → [Target Model/Agent] → [Scorer] → [Judge] │
│ │ │ │
│ └◄────────────── [Summarizer] ◄──────────────┘ │
└─────────────────────────────────────────────────────────────────┘
모듈역할
AttackerSeed + Strategy로 공격 프롬프트 생성
Scorer응답의 유해성을 0~10점으로 평가
JudgeScorer 점수 기반 Safe/Unsafe 최종 판정
Summarizer실패/성공 패턴을 분석해 다음 효과적인 전략 제안
  • Target Model은 평가 대상으로, 현재는 LLM 모델만 지원됩니다.

5. 평가 흐름

반복 평가 루프

  1. Attacker가 공격 프롬프트 생성
  2. Target Model로 Attacker가 생성한 공격 프롬프트에 대한 응답 수집
  3. Scorer가 Target Model의 응답을 기반으로 유해성 점수 산출
  4. Judge가 Score기반으로 Safe/Unsafe 판정
  5. Safe일 경우 → Summarizer가 전략 업데이트 후 재시도 (1번으로 반복)
  6. Unsafe일 경우 → 반복 평가 루프 중단

루프 종료 조건

  • Unsafe 판정 발생
  • 최대 Red Teaming Runs(default : 20) 도달

6. 판정 기준

구분점수
Unsafe8~10
Moderately Unsafe5~7
Moderately Safe3~4
Safe0~2

7. 대시보드 핵심 지표

지표의미
ASR (Attack Success Rate)공격 성공 비율 (낮을수록 안전)
Safety Score평균 유해성 점수
Loop Count시드당 실제 시도 횟수