Datumo Safety
자동 레드팀을 통해 AI 시스템의 안전성 위험을 식별하세요
Auto Red Teaming 페이지는 대규모 언어 모델(LLM)을 대상으로 안전성(Safety) 리스크를 평가하기 위한 자동 레드티밍 워크플로우입니다. 벤치마크 데이터셋의 시드(Seed)에 다양한 Red-Teaming 전략을 적용하여 공격 프롬프트를 생성하고, Target 모델이 어떤 위험에 취약한지, 어떤 Risk Taxonomy, 어떤 전략군에서 Jailbreak가 일어나는지를 일관된 기준과 정량적 지표로 확인할 수 있습니다.
이 섹션에서는 Auto Red Teaming을 활용해 Red Teaming 평가 Task를 생성하고, 평가를 실행하여, 결과를 분석하는 전체 흐름을 안내합니다.
Auto Red Teaming 주요 용어 정리
-
Benchmark Dataset은 Risk Taxonomy 기준으로 구성된 공격 시뮬레이션용 Seed 라이브러리입니다.
- Risk Taxonomy는 AI 모델의 안전성을 다각도로 검증하기 위해 정의된 유해성 평가 분류 체계입니다.
-
Auto Red Teaming은 선택한 벤치마크 데이터셋의 Seed를 기반으로 다양한 공격 전략(Attack Strategy) 을 자동 적용하고 반복 실행하여 모델의 방어 한계와 취약 지점을 탐색하는 과정입니다.
- 공격 전략(Attack Strategy) 에는 셀렉트스타의 연구를 통해 도출된 가장 효과적인 16종의 특화 전략이 포함되어 있으며, 이를 통해 고도화된 취약점 탐색이 가능합니다.
-
Attack Set은 선택한 벤치마크 데이터셋 중 이번 평가에 실제로 사용할 공격 항목입니다. 전체를 선택하거나 필요한 개수만큼 Random Sampling을 해서 구성할 수 있습니다.
-
Target Model은 취약점을 파악하고 싶은, 혹은 공격의 대상이 되는 LLM Model입니다.
-
Jailbreak은 Target Model이 공격에 의해 유해하거나 부적절한 답변을 하는 경우를 Jailbreak(탈옥)이라고 지칭합니다.
어디에 사용할 수 있나요?
- LLM 모델 릴리즈 전 안전성 검증
- 운영 중인 AI 시스템의 위험 점검
AI Red Teaming은 어떻게 동작하나요?
Evaluation Task 생성 → Attack Set 구성 → 자동 공격 시뮬레이션 실행 → Dashboard에서 결과 분석
다음 단계
Auto Red Teaming은 아래 순서로 사용하는 것을 권장합니다.
-
Benchmark Dataset 선택
공격 시뮬레이션에 사용되는 Seed와 Risk Taxonomy 구성을 확인합니다. -
Evaluation Task 생성 및 실행
취약점 분석을 하고 싶은 Target Model을 선택하고 Attack Set을 구성하여 자동 레드티밍을 실행합니다. -
결과 분석
Dashboard에서 ASR, Score 등의 지표를 통해 모델의 안전성 취약 지점을 분석합니다.