세종 대전 충남

ETRI, '질문' 위험성 자동 탐지해 거부, AI언어모델 공개

고병권 기자 입력 2025-11-27 08:31:39 조회수 16

한국전자통신연구원이,
자동으로 이미지나 텍스트의
위험성을 감지해 답변을 거부하는
생성형 언어 모델을 개발했습니다.

연구원이 개발한 세이프 '라바'는 기존 언어
모델에 20여 종의 안정성 기준을 내장해
'문제 소지'가 있는 이미지나 텍스트를
입력해 질의하면, 판단 근거와 함께 답변을
거부하고 안전한 응답만 제공합니다.

이 모델이 탐지하는 위험성 항목은
불법, 폭력, 혐오, 사생활 침해 등 7가지로,
평가 결과 93%의 안전 응답률로 기존 공개된
생성형 모델 대비 10배 이상 높은 수준을
보였습니다.

고병권 kobyko80@tjmbc.co.kr

여러분의 의견을 남겨주세요