Manual Red Teaming
Manual Red Teaming은 사람이 직접 LLM의 취약점을 테스트하는 평가 방식입니다.
다양한 공격 전략(Offensive Strategy)을 기반으로 질문을 생성하고,
모델이 비정상적이거나 위험한 응답을 하는지 수동으로 검증합니다.
본 가이드는 Red Teaming을 시작하기 위한 설정 절차를 순서대로 안내합니다.
아래 설정 항목을 순서대로 따라 하면, 평가 프로젝트를 빠르게 구성할 수 있습니다.
전략 추가
레드티밍을 위한 전략을 추가하고 관리합니다.
주요 기능
- 전략 추가 및 삭제
- 전략 활성화 / 비활성화
- 전략별 생성 비율 현황
- 전략별 검수 성공 여부 등 데이터 추출
작업자 추가 / 관리
레드티밍을 진행할 작업자를 추가 / 관리합니다.
주요 기능
- 작업자 추가 및 삭제
- 작업자 계정 정보 변경
작업자 레드티밍 작업
작업자가 전략 기반으로 레드티밍을 수행하고 결과를 제출합니다.
주요 기능
- 전략 선택
- 선택된 정보 확인 및 모델 공격 실행
- 응답 판단 및 성공 제출
레드티밍 결과 검수
제출된 레드티밍 결과에 대해 검수 기준에 따라 검수합니다.
주요 기능
- 검수 기준 추가 및 삭제
- 제출된 결과에 대한 기준별 검수 실행