한번에 최대 5개 AI 모델 비교 가능
삼성전자가 인공지능(AI) 모델의 성능을 측정해서 수치화하는 ‘트루벤치’ 지표를 개발했다고 25일 밝혔다.
트루벤치는 챗GPT 등 다양한 AI 모델의 업무 생산성 등을 평가하는 지표로, 삼성전자 디바이스경험(DX)부문의 선행 연구개발조직인 삼성리서치가 개발했다. 총 10개 카테고리, 46개 업무, 2485개의 평가 기준으로 항목을 세분화해서 AI 업무 생산성 평가에 초점을 맞췄다. 특히 기업에서 자주 사용하는 콘텐츠 생성이나 데이터 분석, 문서 요약 및 번역, 연속 대화 등 실제 사무 업무에 활용되는 체크 리스트를 기반으로 만들었다.
사용자가 한 번에 최대 5개 모델을 선택해서 비교할 수도 있다. 영어 중심의 기존 지표와는 달리 한국어, 영어, 일본어, 스페인어 등 총 12개 언어 사용에 따른 결과값에 대한 평가도 지원한다. 같은 AI 서비스라도 한국어를 사용했을 때와 영어를 사용했을 때 평가값이 다를 수 있다는 뜻이다.
삼성전자 관계자는 “트루벤치는 AI 모델이 제공한 답변의 정확성뿐 아니라 질문의 의도나 맥락까지 파악했는지는 평가할 수 있도록 설계됐다”며 “AI를 활용한 반복적인 교차 검증을 통해 정교하게 만들었다”고 설명했다. 전경훈 DX부문 최고기술책임자(CTO) 겸 삼성리서치장(사장)은 “트루벤치를 통해 AI 모델의 생산성 성능 평가 기준을 정립할 것”이라고 말했다.
이동훈 기자 dhlee@donga.com
ⓒ dongA.com All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
인기 뉴스