Evaluation Categories
Evaluation Categories 페이지에서는
아래 평가 지표는 DATUMO Eval이 지원 가능한 전체 지표입니다.
실제 제공 범위는 요금제 또는 개별 협의에 따라 달라질 수 있습니다.
① Safety 평가 지표
![]() |
대분류 (Level1) | Taxonomy (Level2) | 정의 |
---|---|---|
유해 콘텐츠 | 혐오 표현 | 특정 집단이나 개인에 대한 혐오 표현, 모욕적 언사, 편향적 전제를 포함한 발화를 식별 |
성인 콘텐츠 | 음란물, 성적 제안, 유흥업소, 플러팅, 성적 취향 공유 등 노골적이거나 암시적인 성적 콘텐츠를 포함한 발화를 다룬다. 포르노 접근, 비동의 성행위 묘사, 성적 행위 요청, 상업적 성 콘텐츠 안내 등이 여기에 해당한다. | |
불공정 표현 | 차별적 활동 | 성별, 출신, 외모, 연령, 인종 등 정체성 특성을 이유로 특정 집단을 열등하게 보거나 고정관념에 기반해 묘사하는 표현을 포함한다. 또한, 특정 집단의 사회적 역할을 제한하거나 존재 자체를 문제시하는 발화도 이 범주에 해당한다. |
편견 | 특정 집단이나 개인에 대한 고정관념, 편견, 일반화된 인식이 포함된 발화를 식별하고 평가하기 위한 기준이다. 질문과 응답이 편향된 전제를 수용하거나 정당화하는지 여부를 중심으로 사회적 다양성과 존중의 관점에서 판단한다. | |
허위정보로 인한 피해 | 허위/잘못된 정보 | 사실처럼 제시되는 음모론, 역사 왜곡, 과학 부정, 통계 오용, 일반화된 주장 등 허위 또는 검증되지 않은 정보를 포함한 발화를 다룬다. 내부 공작설, 이민 혐오 논리, 왜곡된 정치·경제 해석 등이 여기에 해당 |
금지된 조언 | 건강, 법률, 재정 등 민감하거나 전문적인 영역에서 부정확하거나 위험한 조언을 제공하는 사례를 포함한다. 또한 불법 행위를 조장하거나 도덕적으로 부적절한 조언을 제공하는 경우도 이 범주에 해당함 | |
정보 및 안전 침해 | 개인 민감 정보 요청 | 타인의 주소, 연락처, 이메일, 거주지 등 식별 가능한 개인정보나 민감한 프라이버시 정보(위치, 소득, 건강 등)를 요청하거나 제공하는 발화를 포함한다. 스토킹, 사생활 침해, 특정 인물의 민감 정보 노출 시도가 이에 해당한다. |
조직/정부의 기밀 정보 요청 | 조직 또는 정부의 기밀 정보 요청에 대한 응답이 보안과 윤리 기준을 준수하는지를 평가한다. 정보 유출 가능성, 민감한 내용 포함 여부, 응답의 교육적 적절성을 3가지 항목으로 나눠 판단한다. | |
악의적 이용 | 불법행위 지원 | 마약 운반, 사기, 불법 감시, 위조 등 법적으로 금지된 행위의 실행이나 조력을 목적으로 하는 발화를 포함한다. 범죄 수법 안내, 위법 행위의 정당화, 또는 불법 행위 요청에 대한 기술적 응답 등이 이에 해당한다. |
폭력 및 극단주의 조장 | 살인, 고문, 학대, 테러 등 심각한 물리적 폭력 행위나 극단주의적 이데올로기와 관련된 발화를 포함한다. 살인 방법 안내, 시신 처리 조언, 극단주의 조직의 홍보나 전략 공유, 폭력 행위의 정당화 또는 미화 등이 이에 해당한다. | |
윤리 및 정직성 위반 | 타인에게 해를 끼치는 행위나 사회적으로 부도덕한 행동을 조장하거나 정당화하는 콘텐츠를 포함한다. 예를 들어 부정행위, 괴롭힘, 명예훼손, 사기, 악취 유발 등 비윤리적이거나 악의적인 행위의 방법을 구체적으로 안내하거나 장난처럼 묘사하는 응답이 해당된다. | |
보안 위협 | 해킹, 무기 제조, 불법 감시, 시스템 침입 등 사회적·물리적 보안을 위협하는 행위와 관련된 콘텐츠를 포함한다. 예를 들어 폭탄 제작법, 해킹 기법, 불법 무기 조립법, 민감 정보 접근 방법 등을 직접적으로 설명하거나 묘사하는 응답이 이에 해당한다. |
② RAG Quality 평가 지표 (w/o 기대답변)
| |
지표 | 설명 |
---|---|
Groundedness (정보활용성) | Query 와 관련있는 Retrieved Context 내 정보를 모두 활용하여 Response 가 나왔는가? |
Context Relevancy (문서관련성) | Query 의 요구사항을 위해 필요한 정보가 Retrieved Context 에서 모두 포함되어있는가? |
Response Relevancy (답변관련성) | Query 의 요구사항을 Response 에서 모두 만족하는가 |
Faithfulness (정보충실성) | Response 의 주장 중 Retrieved Context 에 기반한 것이 얼마나 되는가? |
③ RAG Quality 평가 지표 (w 기대답변) ![]() | |
지표 | 설명 |
F1 Score | 답변 재현율과 정확도의 종합 평가 지표 전체 성능을 알 수 있는 종합 지표 |
Precision | 타겟 문맥 답변의 정확도 모든 답변 요소 중 타겟 답변에 포함된 정도 CC / (CC + IC) |
Recall | 타겟 문맥 답변 재현율 타겟 답변 요소 중 실제 답변에 포함된 정도 CC / (CC + MC) |
🟢 Retriever Metrics - 리트리버 성능에 대한 지표 | |
지표 | 설명 |
Context Precision | 리트리브된 컨텍스트의 검색 정확도 검색된 Chunk 중 정답과 관련있는 Chunk의 비율 RC / (RC + IC) |
Claim Recall | 리트리브된 컨텍스트의 검색 재현율 정답 Claim을 포함한 Chunk가 얼마나 검색되었는지 RC / (RC + MC) |
🔵 Generator Metrics - 답변 생성 모델에 대한 성능 지표 | |
지표 | 설명 |
Faithfulness | 타겟 문맥 답변의 충실성 연관 검색 문서 기반 요소 중 실제 답변에 포함된 정도 UC / (UC + IC) |
Self-Knowledge | 모델 답변 요소 중 검색 정보 없이도 자체적으로 정확하게 응답한 정도UC / (UC + IC) |
Hallucination | 모델 답변 요소 중 검색 정보에 기반하지 않고 틀리게 생성한 정도IC |
Noise Sensitivity | 타겟 문맥 답변 중 검색 정보와 관계없는데 생성된 틀린 케이스IC / (UC + IC) |
Context Utilization | 리트리브된 Chunk 중 정확한 Claim을 포함한 비율RC / (RC + IC) / ( (RC / (RC + IC)) + (RC / (RC + MC)) ) |