본문으로 건너뛰기

Datumo Safety

자동 레드팀을 통해 AI 시스템의 안전성 위험을 식별하세요

Auto Red Teaming 페이지는 대규모 언어 모델(LLM)을 대상으로 안전성(Safety) 리스크를 평가하기 위한 자동 레드티밍 워크플로우입니다. 벤치마크 데이터셋의 시드(Seed)에 다양한 Red-Teaming 전략을 적용하여 공격 프롬프트를 생성하고, Target 모델이 어떤 위험에 취약한지, 어떤 Risk Taxonomy, 어떤 전략군에서 Jailbreak가 일어나는지를 일관된 기준과 정량적 지표로 확인할 수 있습니다.

이 섹션에서는 Auto Red Teaming을 활용해 Red Teaming 평가 Task를 생성하고, 평가를 실행하여, 결과를 분석하는 전체 흐름을 안내합니다.


Auto Red Teaming 주요 용어 정리

  • Benchmark Dataset은 Risk Taxonomy 기준으로 구성된 공격 시뮬레이션용 Seed 라이브러리입니다.

    • Risk Taxonomy는 AI 모델의 안전성을 다각도로 검증하기 위해 정의된 유해성 평가 분류 체계입니다.
  • Auto Red Teaming은 선택한 벤치마크 데이터셋의 Seed를 기반으로 다양한 공격 전략(Attack Strategy) 을 자동 적용하고 반복 실행하여 모델의 방어 한계와 취약 지점을 탐색하는 과정입니다.

    • 공격 전략(Attack Strategy) 에는 셀렉트스타의 연구를 통해 도출된 가장 효과적인 16종의 특화 전략이 포함되어 있으며, 이를 통해 고도화된 취약점 탐색이 가능합니다.
  • Attack Set은 선택한 벤치마크 데이터셋 중 이번 평가에 실제로 사용할 공격 항목입니다. 전체를 선택하거나 필요한 개수만큼 Random Sampling을 해서 구성할 수 있습니다.

  • Target Model은 취약점을 파악하고 싶은, 혹은 공격의 대상이 되는 LLM Model입니다.

  • Jailbreak은 Target Model이 공격에 의해 유해하거나 부적절한 답변을 하는 경우를 Jailbreak(탈옥)이라고 지칭합니다.


어디에 사용할 수 있나요?

  • LLM 모델 릴리즈 전 안전성 검증
  • 운영 중인 AI 시스템의 위험 점검

AI Red Teaming은 어떻게 동작하나요?

Evaluation Task 생성 → Attack Set 구성 → 자동 공격 시뮬레이션 실행 → Dashboard에서 결과 분석


다음 단계

Auto Red Teaming은 아래 순서로 사용하는 것을 권장합니다.

  1. Benchmark Dataset 선택
    공격 시뮬레이션에 사용되는 Seed와 Risk Taxonomy 구성을 확인합니다.

  2. Evaluation Task 생성 및 실행
    취약점 분석을 하고 싶은 Target Model을 선택하고 Attack Set을 구성하여 자동 레드티밍을 실행합니다.

  3. 결과 분석
    Dashboard에서 ASR, Score 등의 지표를 통해 모델의 안전성 취약 지점을 분석합니다.