Datumo Safety
자동 레드팀을 통해 AI 시스템의 안전성 위험을 식별하세요
Auto Red Teaming은 대규모 언어 모델(LLM)과 AI 시스템을 대상으로 안전성(Safety) 리스크를 자동으로 평가하기 위한 레드티밍 워크플로우입니다. Benchmark Dataset(Seed)과 Risk Taxonomy를 기반으로 공격 프롬프트를 생성하고, Target 모델이 어떤 위험에 취약한지, 그리고 어디에서 방어가 실패하는지를 일관된 기준과 정량적 지표로 확인할 수 있습니다.
이 섹션에서는 Auto Red Teaming을 활용해 평가 Task를 생성하고, 평가를 실행하며, 결과를 분석하는 전체 흐름을 안내합니다.
Auto Red Teaming은 어떻게 구성되어 있나요?
-
Benchmark Dataset은 Risk Taxonomy 기준으로 구성된 공격 시뮬레이션용 Seed 라이브러리입니다. 사용자는 이를 수정하지 않고, Red Teaming 실행 시 선택하여 사용합니다.
-
Auto Red Teaming은 선택한 Benchmark Seed를 기반으로 다양한 공격 전략을 자동 적용하고 반복 실행하여 모델의 방어 한계와 취약 지점을 탐색하는 과정입니다.
어디에 사용할 수 있나요?
- LLM 모델 릴리즈 전 안전성 검증
- 프롬프트·정책 변경 전후 비교
- 운영 중인 AI 시스템의 위험 점검
AI Red Teaming은 어떻게 동작하나요?
Evaluation Task 생성 → Attack Set 구성 → 자동 공격 시뮬레이션 실행 → Dashboard에서 결과 분석
다음 단계
Auto Red Teaming은 아래 순서로 사용하는 것을 권장합니다.
-
Benchmark Dataset 확인
공격 시뮬레이션에 사용되는 Seed와 Risk Taxonomy 구성을 확인합니다. -
Evaluation Task 생성 및 실행
Target 모델을 선택하고 Attack Set을 구성하여 자동 레드티밍을 실행합니다. -
결과 분석
Dashboard에서 ASR, Score 등의 지표를 통해 모델의 안전성 취약 지점을 분석합니다.
아래 문서 중 하나를 선택해 시작하세요.