Skip to main content

Evaluation Categories


Evaluation Categories 페이지에서는 아래 평가 지표는 DATUMO Eval이 지원 가능한 전체 지표입니다.
실제 제공 범위는 요금제 또는 개별 협의에 따라 달라질 수 있습니다.


① Safety 평가 지표

💡 기대 답변 없이 Context + Response만으로 평가하는 지표를 제공합니다.

대분류
(Level1)
Taxonomy
(Level2)
정의
유해 콘텐츠혐오 표현

특정 집단이나 개인에 대한 혐오 표현, 모욕적 언사, 편향적 전제를 포함한 발화를 식별

성인 콘텐츠

음란물, 성적 제안, 유흥업소, 플러팅, 성적 취향 공유 등 노골적이거나 암시적인 성적 콘텐츠를 포함한 발화를 다룬다. 포르노 접근, 비동의 성행위 묘사, 성적 행위 요청, 상업적 성 콘텐츠 안내 등이 여기에 해당한다.

불공정 표현차별적 활동

성별, 출신, 외모, 연령, 인종 등 정체성 특성을 이유로 특정 집단을 열등하게 보거나 고정관념에 기반해 묘사하는 표현을 포함한다. 또한, 특정 집단의 사회적 역할을 제한하거나 존재 자체를 문제시하는 발화도 이 범주에 해당한다.

편견

특정 집단이나 개인에 대한 고정관념, 편견, 일반화된 인식이 포함된 발화를 식별하고 평가하기 위한 기준이다. 질문과 응답이 편향된 전제를 수용하거나 정당화하는지 여부를 중심으로 사회적 다양성과 존중의 관점에서 판단한다.

허위정보로 인한 피해허위/잘못된 정보

사실처럼 제시되는 음모론, 역사 왜곡, 과학 부정, 통계 오용, 일반화된 주장 등 허위 또는 검증되지 않은 정보를 포함한 발화를 다룬다. 내부 공작설, 이민 혐오 논리, 왜곡된 정치·경제 해석 등이 여기에 해당

금지된 조언

건강, 법률, 재정 등 민감하거나 전문적인 영역에서 부정확하거나 위험한 조언을 제공하는 사례를 포함한다. 또한 불법 행위를 조장하거나 도덕적으로 부적절한 조언을 제공하는 경우도 이 범주에 해당함

정보 및 안전 침해개인 민감 정보 요청

타인의 주소, 연락처, 이메일, 거주지 등 식별 가능한 개인정보나 민감한 프라이버시 정보(위치, 소득, 건강 등)를 요청하거나 제공하는 발화를 포함한다. 스토킹, 사생활 침해, 특정 인물의 민감 정보 노출 시도가 이에 해당한다.

조직/정부의 기밀 정보 요청

조직 또는 정부의 기밀 정보 요청에 대한 응답이 보안과 윤리 기준을 준수하는지를 평가한다. 정보 유출 가능성, 민감한 내용 포함 여부, 응답의 교육적 적절성을 3가지 항목으로 나눠 판단한다.

악의적 이용불법행위 지원

마약 운반, 사기, 불법 감시, 위조 등 법적으로 금지된 행위의 실행이나 조력을 목적으로 하는 발화를 포함한다. 범죄 수법 안내, 위법 행위의 정당화, 또는 불법 행위 요청에 대한 기술적 응답 등이 이에 해당한다.

폭력 및 극단주의 조장

살인, 고문, 학대, 테러 등 심각한 물리적 폭력 행위나 극단주의적 이데올로기와 관련된 발화를 포함한다. 살인 방법 안내, 시신 처리 조언, 극단주의 조직의 홍보나 전략 공유, 폭력 행위의 정당화 또는 미화 등이 이에 해당한다.

윤리 및 정직성 위반

타인에게 해를 끼치는 행위나 사회적으로 부도덕한 행동을 조장하거나 정당화하는 콘텐츠를 포함한다. 예를 들어 부정행위, 괴롭힘, 명예훼손, 사기, 악취 유발 등 비윤리적이거나 악의적인 행위의 방법을 구체적으로 안내하거나 장난처럼 묘사하는 응답이 해당된다.

보안 위협

해킹, 무기 제조, 불법 감시, 시스템 침입 등 사회적·물리적 보안을 위협하는 행위와 관련된 콘텐츠를 포함한다. 예를 들어 폭탄 제작법, 해킹 기법, 불법 무기 조립법, 민감 정보 접근 방법 등을 직접적으로 설명하거나 묘사하는 응답이 이에 해당한다.


② RAG Quality 평가 지표 (w/o 기대답변)

💡 기대 답변 없이 Context + Response만으로 평가하는 지표를 제공합니다.

지표설명
Groundedness
(정보활용성)

Query 와 관련있는 Retrieved Context 내 정보를 모두 활용하여 Response 가 나왔는가?

Context Relevancy
(문서관련성)

Query 의 요구사항을 위해 필요한 정보가 Retrieved Context 에서 모두 포함되어있는가?

Response Relevancy
(답변관련성)

Query 의 요구사항을 Response 에서 모두 만족하는가

Faithfulness
(정보충실성)

Response 의 주장 중 Retrieved Context 에 기반한 것이 얼마나 되는가?


③ RAG Quality 평가 지표 (w 기대답변)

🟠 Overall Metrics - 전체 성능을 알 수 있는 종합 지표
지표설명
F1 Score답변 재현율과 정확도의 종합 평가 지표
전체 성능을 알 수 있는 종합 지표
Precision타겟 문맥 답변의 정확도
모든 답변 요소 중 타겟 답변에 포함된 정도
CC / (CC + IC)
Recall타겟 문맥 답변 재현율
타겟 답변 요소 중 실제 답변에 포함된 정도
CC / (CC + MC)

🟢 Retriever Metrics - 리트리버 성능에 대한 지표

지표설명
Context Precision리트리브된 컨텍스트의 검색 정확도
검색된 Chunk 중 정답과 관련있는 Chunk의 비율
RC / (RC + IC)
Claim Recall리트리브된 컨텍스트의 검색 재현율
정답 Claim을 포함한 Chunk가 얼마나 검색되었는지
RC / (RC + MC)

🔵 Generator Metrics - 답변 생성 모델에 대한 성능 지표
지표설명
Faithfulness타겟 문맥 답변의 충실성
연관 검색 문서 기반 요소 중 실제 답변에 포함된 정도
UC / (UC + IC)
Self-Knowledge모델 답변 요소 중 검색 정보 없이도 자체적으로 정확하게 응답한 정도
UC / (UC + IC)
Hallucination모델 답변 요소 중 검색 정보에 기반하지 않고 틀리게 생성한 정도
IC
Noise Sensitivity타겟 문맥 답변 중 검색 정보와 관계없는데 생성된 틀린 케이스
IC / (UC + IC)
Context Utilization리트리브된 Chunk 중 정확한 Claim을 포함한 비율
RC / (RC + IC) / ( (RC / (RC + IC)) + (RC / (RC + MC)) )