본문으둜 κ±΄λ„ˆλ›°κΈ°

μžλ™ λ ˆλ“œ 티밍

Auto-Redteaming은 μ‹œλ“œ λ¬Έμž₯을 기반으둜 곡격 ν”„λ‘¬ν”„νŠΈλ₯Ό μžλ™ μƒμ„±ν•˜κ³ , 이λ₯Ό 톡해 AI λͺ¨λΈμ˜ μ•ˆμ „μ„±κ³Ό 취약성을 ν‰κ°€ν•˜λŠ” μžλ™ν™”λœ λ ˆλ“œνŒ€ μ‹œμŠ€ν…œμž…λ‹ˆλ‹€.

λ‹€μ–‘ν•œ μ „λž΅μ„ μ‘°ν•©ν•˜μ—¬ μžλ™ 곡격 ν”„λ‘¬ν”„νŠΈλ₯Ό κ΅¬μ„±ν•˜κ³ , Scorer λͺ¨λΈμ΄ 응닡을 ν‰κ°€ν•˜μ—¬ μ •λŸ‰μ  리포트λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.




β‘  Auto-Redteaming ν”„λ‘œμ νŠΈ 생성 μ ˆμ°¨β€‹

Step 1. κΈ°λŠ₯ νŽ˜μ΄μ§€ μ§„μž…β€‹

쒌츑 λ‚΄λΉ„κ²Œμ΄μ…˜ λ°”μ—μ„œ [Auto-Redteaming] 메뉴λ₯Ό ν΄λ¦­ν•˜μ—¬ ν•΄λ‹Ή κΈ°λŠ₯ νŽ˜μ΄μ§€λ‘œ μ΄λ™ν•©λ‹ˆλ‹€.
κΈ°λŠ₯ μ‚¬μš©μ„ μœ„ν•΄ 사전 λ“±λ‘λœ ν”„λ‘œμ νŠΈκ°€ μ—†λ‹€λ©΄, μƒˆ ν”„λ‘œμ νŠΈλ₯Ό λ¨Όμ € 생성해야 ν•©λ‹ˆλ‹€.

우츑 상단 [+Add Project]λ²„νŠΌμ„ μ„ νƒν•΄μ£Όμ„Έμš”


Step 2. μ‹ κ·œ ν”„λ‘œμ νŠΈ 생성​

⚠️ Auto-Redteaming은 ν”„λ‘œμ νŠΈ 생성 직후 μžλ™μœΌλ‘œ 평가가 μ‹œμž‘λ©λ‹ˆλ‹€.
μ‹œλ“œκ°€ 될 파일과 μ£Όμš” 섀정값을 사전에 μ •ν™•νžˆ μž…λ ₯ν•΄ μ£Όμ„Έμš”. 생성 ν›„μ—λŠ” μˆ˜μ •μ΄λ‚˜ μ‚­μ œκ°€ λΆˆκ°€λŠ₯ν•©λ‹ˆλ‹€.


우츑 μƒλ‹¨μ˜ [Add Red Teaming Project] λ²„νŠΌμ„ 클릭해 μƒˆ ν”„λ‘œμ νŠΈ 생성을 μ‹œμž‘ν•©λ‹ˆλ‹€.
ν•­λͺ©λ“€μ„ λͺ¨λ‘ μž…λ ₯ν•΄μ•Ό ν”„λ‘œμ νŠΈκ°€ μƒμ„±λ©λ‹ˆλ‹€:

  • Upload File: 평가에 μ‚¬μš©ν•  μ‹œλ“œ λ¬Έμž₯ 파일 μ—…λ‘œλ“œ
  • Target Model: 평가 λŒ€μƒ LLM 선택
  • Max Red Teaming Runs: μ‹œλ“œλ‹Ή 반볡 곡격 횟수 μ„€μ •
  • Select Taxonomy: 곡격 μ „λž΅ λΆ„λ₯˜ 체계 선택

Step 3. ν”„λ‘œμ νŠΈ 생성 및 싀행​

ν”„λ‘œμ νŠΈ 섀정이 μ™„λ£Œλ˜λ©΄ [Add Red Teaming Project] λ²„νŠΌμ„ ν΄λ¦­ν•˜μ—¬ 평가λ₯Ό μ‹œμž‘ν•©λ‹ˆλ‹€. μƒμ„±λœ ν”„λ‘œμ νŠΈλŠ” ν”„λ‘œμ νŠΈ λ¦¬μŠ€νŠΈμ— μΆ”κ°€λ˜λ©°, μ‹œμŠ€ν…œ λ‚΄λΆ€μ—μ„œ μžλ™ 평가가 λΉ„λ™κΈ°μ μœΌλ‘œ μ‹œμž‘λ©λ‹ˆλ‹€.


β‘‘ λ ˆλ“œν‹°λ° μ§„ν–‰ 및 κ²°κ³Ό 확인​

Step 4. 평가 μ§„ν–‰ 쀑​

평가가 μ‹€ν–‰λ˜λ©΄ ν”„λ‘œμ νŠΈ λ¦¬μŠ€νŠΈμ—μ„œ ν•΄λ‹Ή ν•­λͺ©μ˜ μƒνƒœκ°€ "μ§„ν–‰ 쀑" 으둜 ν‘œμ‹œλ©λ‹ˆλ‹€. 상세 νŽ˜μ΄μ§€μ— μ§„μž…ν•˜λ©΄, μ‹œλ“œ λ¬Έμž₯ λ‹¨μœ„λ‘œ μ§„ν–‰λ₯ μ„ 확인할 수 μžˆλŠ” μ§„ν–‰ λ°”(Progress Bar) κ°€ ν‘œμ‹œλ˜λ©°, μ‹œμŠ€ν…œμ΄ 곡격 μ „λž΅ 생성 β†’ λͺ¨λΈ 응닡 β†’ Judge ν‰κ°€μ˜ 단계λ₯Ό μžλ™μœΌλ‘œ 반볡 μˆ˜ν–‰ν•©λ‹ˆλ‹€.



Step 5. 평가 μ™„λ£Œ 및 리포트 확인​

평가가 μ™„λ£Œλ˜λ©΄, ν”„λ‘œμ νŠΈ 상세 ν™”λ©΄μ—μ„œ 톡계 기반 λ¦¬ν¬νŠΈκ°€ μžλ™μœΌλ‘œ μ œκ³΅λ©λ‹ˆλ‹€. λ¦¬ν¬νŠΈμ—λŠ” 전체 ν”„λ‘œμ νŠΈμ˜ μ„±κ³Όλ₯Ό μš”μ•½ν•˜λŠ” 핡심 ν‰κ°€μ§€ν‘œλ“€μ΄ ν¬ν•¨λ˜μ–΄ μžˆμ–΄, λͺ¨λΈμ˜ λ°©μ–΄ λŠ₯λ ₯을 μ§κ΄€μ μœΌλ‘œ νŒŒμ•…ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

리포트 μ£Όμš” ν•­λͺ© μ˜ˆμ‹œ:

  • λͺ¨λΈλͺ…, 반볡 횟수, Safe/Unsafe κ²°κ³Ό λ“±
  • μ „λž΅λ³„ 취약점 μš”μ•½ 제곡

πŸ“Œ λ¦¬ν¬νŠΈλŠ” λͺ¨λΈμ˜ μ•ˆμ „μ„± μΆ”μ„Έ 뢄석 및 μ·¨μ•½ μ˜μ—­ νŒŒμ•…μ— ν™œμš©λ©λ‹ˆλ‹€.


Step 6. 상세 κ²°κ³Ό 확인​

리포트 ν•˜λ‹¨μ˜ 평가 ν…Œμ΄λΈ”μ—μ„œλŠ” 각 μ‹œλ“œ λ¬Έμž₯에 λŒ€ν•œ κ°œλ³„ 평가 κ²°κ³Όλ₯Ό 확인할 수 μžˆμŠ΅λ‹ˆλ‹€. ν‘œμ—λŠ” 반볡 μ‹œλ„ 횟수, 평가 점수, μ‚¬μš©λœ μ „λž΅ λ“± 핡심 정보가 μš”μ•½λ˜μ–΄ ν‘œμ‹œλ©λ‹ˆλ‹€.

πŸ“Œ 반볡적으둜 Unsafe νŒμ •μ„ 받은 μ‹œλ“œ λ¬Έμž₯을 μ€‘μ‹¬μœΌλ‘œ λŒ€μ‘ μ „λž΅μ„ μˆ˜λ¦½ν•˜κ±°λ‚˜, 문제 μœ ν˜•λ³„ μ„±λŠ₯ κ°œμ„ μ— ν™œμš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.