미디어그룹사람과숲, 한국어 특화 LLM 리더보드 다시 1위

뉴스 제공

2023-11-13 13:59

서울--(뉴스와이어)--미디어그룹사람과숲(이하 사람과숲)은 한국정보화진흥원(NIA)과 업스테이지가 주최하는 한국어 ‘초거대 언어 모델’ 리더보드 ‘Open Ko-LLM’에서 1위를 차지했다고 13일 밝혔다.

해당 리더보드 개발 경쟁에서 1위를 차지한 LLM(초거대 언어 모델)은 사람과숲이 마커와 컨소시엄을 이뤄 공동 개발한 ‘HumanF-MarkrAI/COKAL-DPO-13b-v2’다. 글로벌 IT 기업 메타가 오픈소스로 공개한 ‘라마2’를 파운데이션 모델로 삼고, 자체 수집·가공한 데이터에 인스트럭트 파인 튜닝을 거쳐 개발했다.

이번 리더보드는 LLM의 한국어 성능을 겨뤄 순위를 매겼다. 50개가 넘는 개인 및 조직에서 100개 이상의 LLM이 제출됐다. LLM에 대한 △추론 능력 △상식 능력 △언어 이해력 △환각 방지 능력 △한국어 상식 생성 능력 5가지 평가 지표에 따라 점수를 매겼고, HumanF-MarkrAI/COKAL-DPO-13b-v2 모델이 평균 점수 52.69으로 1위를 기록했다.

사람과숲은 올해 9월 28일 리더보드에서 1위를 한 이후 4주간 여러 차례 1위를 해왔으나 최근 주최 측에서 측정 지표를 변화해 순위가 밀려 2주간 1위를 하지 못했다. 하지만 사람과숲이 바뀐 기준에 적응해 꾸준히 연구한 결과, LLM 리더보드 개최 최대 점수인 52.69를 기록했다.

해당 연구를 이끈 정철현 박사는 “이번 LLM은 AI-허브의 한국어 공공 행정 문서와 민원 응대 데이터가 주요 데이터 소스로 활용됐다”며 “이 LLM은 공공 행정 업무를 수행하는 챗봇을 위해 튜닝한 것이지만 종합 성능이 국내 1위 수준으로, 더 다양한 용도로도 활용할 수 있다”고 말했다.

한윤기 미디어그룹사람과숲 대표는 “앞으로 한국어 특화 LLM 리더보드가 좀 더 활성화돼 한국어 AI 기술 발전에 계속 기여하고, 특히 공공 행정 분야에서 가장 사랑받는 ‘한국형 챗GPT’를 만들어 나가겠다”는 포부를 밝혔다.

미디어그룹사람과숲 소개

작가주의적 개성을 지닌 프로젝트 매니저들이 모여 시작된 미디어그룹사람과숲은 비주얼 데이터(Visual Data)에 기반한 디지털라이징, 인공지능(AI), 빅데이터, 자율주행, 가상현실(VR) 등 관련 분야에서 뛰어난 실적을 보유하고 있으며, 이에 기반한 자체 기술과 서비스 개발 등 다각도의 사업 확장을 통해 글로벌 시장 진출을 추진하고 있다. 데이터를 매개로 사람 중심의 문화, 사람 중심의 기업이 돼 함께 성장하고 행복할 수 있는 기업으로 자라나고 있다.

웹사이트: https://humanf.co.kr/