Model & Agent
Overview
Datumo Eval에서 Model과 Agent는 평가 파이프라인의 핵심 구성 요소입니다. 평가 대상이 되는 Target Model과 평가를 수행하는 Judge Model의 역할을 이해하는 것이 중요합니다.
Model의 종류
1. Target Model (평가 대상 모델)
① 역할
평가를 받는 대상이 되는 AI 모델입니다.
② 기능
- Dataset의 Query에 대한 응답을 생성합니다.
- 생성된 응답이 Judge Model에 의해 평가됩니다.
- 다양한 LLM 제공업체를 지원합니다 (OpenAI, Anthropic, Google 등).
- Custom API 엔드포인트 연결이 가능합니다.
2. Judge Model (평가 모델)
① 역할
Target Model의 응답을 평가하는 AI 모델입니다.
② 기능
- 정의된 Metric 기준에 따라 응답 품질을 평가합니다.
- 점수 및 평가 근거(Reasoning)를 생성합니다.
- 일관성 있는 평가를 위한 고성능 모델이 권장됩니다.
Agent 개념
1. Agent란
① 정의
Agent는 특정 역할과 설정을 가진 모델 인스턴스입니다.
② 구성 요소
| 구성 요소 | 설명 |
|---|---|
| Base Model | 기반이 되는 LLM (예: GPT-4, Claude) |
| System Prompt | 모델의 역할과 행동을 정의하는 프롬프트 |
| Temperature | 응답의 창의성/일관성 조절 파라미터 |
| Max Tokens | 최대 응답 길이 제한 |
2. Agent 활용 예시
① RAG Agent
검색된 문맥을 기반으로 응답을 생성합니다.
② Safety Agent
안전한 응답 생성을 위한 가이드라인을 적용합니다.
③ Domain Expert Agent
특정 도메인에 특화된 응답을 생성합니다.
Judge Model 선택 기준
1. 권장 사항
① 고성능 모델 사용
정확한 평가를 위해 GPT-4, Claude 3 등 최신 모델을 권장합니다.
② 일관성 확보
낮은 Temperature 설정으로 평가 일관성을 유지합니다.
③ 충분한 Context Window
긴 응답도 평가할 수 있는 모델을 선택합니다.
2. 주의 사항
① 편향 가능성
Target Model과 동일한 모델을 Judge로 사용 시 편향이 발생할 수 있습니다.
② 비용과 성능 균형
비용과 성능의 균형을 고려해야 합니다.
③ 목적에 맞는 선택
평가 목적에 맞는 모델을 선택합니다 (예: 다국어 평가 시 다국어 지원 모델).
Model 등록 및 관리
1. API Key 관리
① API Key 등록
Settings에서 각 제공업체별 API Key를 등록합니다.
② 보안
보안을 위한 암호화 저장을 제공합니다.
③ 팀 공유
팀 단위 Key 공유가 가능합니다.
2. Custom Model 연결
① REST API 연결
REST API 엔드포인트 연결을 지원합니다.
② 온프레미스 통합
온프레미스 모델 통합이 가능합니다.
③ 응답 형식 매핑
응답 형식 매핑 설정을 제공합니다.
평가 흐름에서의 역할
1. 평가 프로세스
① 전체 흐름
Query → Target Model → Response → Judge Model → Score & Reasoning
② 단계별 설명
- Query 전달: Dataset의 Query가 Target Model에 전달됩니다.
- 응답 생성: Target Model이 Response를 생성합니다.
- 평가 수행: Judge Model이 Metric 기준으로 평가합니다.
- 결과 산출: 점수와 평가 근거를 생성합니다.
관련 문서
- Evaluation Task - Task에서 Model 설정
- Metrics - 평가 기준 정의
- Model 관리 튜토리얼 - API Key 등록 방법