Skip to main content

Manual Red Teaming

Manual Red Teaming은 사람이 직접 LLM의 취약점을 테스트하는 평가 방식입니다.
다양한 공격 전략(Offensive Strategy)을 기반으로 질문을 생성하고, 모델이 비정상적이거나 위험한 응답을 하는지 수동으로 검증합니다.

본 가이드는 Red Teaming을 시작하기 위한 설정 절차를 순서대로 안내합니다.

아래 설정 항목을 순서대로 따라 하면, 평가 프로젝트를 빠르게 구성할 수 있습니다.

전략 추가

레드티밍을 위한 전략을 추가하고 관리합니다.

주요 기능

전략 추가 및 삭제
전략 활성화 / 비활성화
전략별 생성 비율 현황
전략별 검수 성공 여부 등 데이터 추출

작업자 추가 / 관리

레드티밍을 진행할 작업자를 추가 / 관리합니다.

주요 기능

작업자 추가 및 삭제
작업자 계정 정보 변경

작업자 레드티밍 작업

작업자가 전략 기반으로 레드티밍을 수행하고 결과를 제출합니다.

주요 기능

전략 선택
선택된 정보 확인 및 모델 공격 실행
응답 판단 및 성공 제출

레드티밍 결과 검수

제출된 레드티밍 결과에 대해 검수 기준에 따라 검수합니다.

주요 기능

검수 기준 추가 및 삭제
제출된 결과에 대한 기준별 검수 실행