Weights & Biases Korea ‘호랑이 리더보드 4’ 공개

한국어 LLM 평가 벤치마크 대폭 확장… 실전 추론·개발·안전성 평가 강화

뉴스 제공

2025-11-28 11:00

서울--(뉴스와이어)--Weights & Biases Korea(이하 W&B Korea)는 한국어 대형 언어모델(LLM)의 성능을 체계적으로 비교·분석할 수 있는 대표 플랫폼인 ‘호랑이 리더보드’의 새로운 메이저 업데이트 ‘호랑이 리더보드 4’를 공식 공개했다.

‘호랑이 리더보드’는 한국어 기반 LLM의 성능을 공정하고 투명하게 비교할 수 있는 오픈 벤치마크 플랫폼으로, 국내외 인공지능(AI) 연구자와 기업들 사이에서 ‘한국어 LLM 평가의 표준’으로 자리매김한 프로젝트다.

이번 업데이트는 한국어 언어 모델의 표준이 되는 벤치마크와 평가 프레임워크를 개발하는 해례팀(HAERAE Lab) 등과 협력해 벤치마크 구성, 평가의 신뢰성 등을 담보했다.

이번 업데이트는 최근 급속히 발전한 LLM 기술 수준에 맞춰 평가 체계를 전면 개편한 것으로, △고난이도 추론 및 전문지식 평가 강화 △애플리케이션 개발 능력 신설 △안전성 및 신뢰성 검증 확대 등을 주요 골자로 한다. 이를 통해 기업과 연구기관은 한국어 LLM의 실전 적용 가능성을 객관적이고 실용적인 기준으로 신속하게 비교·선택할 수 있게 됐다.

실무 중심의 LLM 평가로 생태계 고도화

최근 AI 모델이 단순 문장 생성 단계를 넘어 복합적 사고와 실행을 수행하는 수준으로 발전함에 따라 LLM 기반 응용개발 수요가 폭발적으로 증가하고 있다. 이와 함께 AI 거버넌스와 편향성, 윤리적 책임에 대한 논의가 심화되면서 모델의 안전성과 신뢰성을 다각도로 검증할 수 있는 평가체계의 필요성이 대두되고 있다.

이러한 변화에 대응하기 위해 W&B Korea는 호랑이 리더보드를 단순한 모델 성능 비교 도구에서 한국어 LLM 생태계의 표준 벤치마크 플랫폼으로 진화시켰다.

W&B Korea의 AI Solutions Engineer 오현우 매니저는 “호랑이 리더보드 4는 단순한 점수 경쟁이 아니라 한국어 LLM의 실질적 활용성과 안전성을 함께 검증하는 K-AI의 생태계적 기준을 제시한다”며 “연구자, 기업, 개발자 모두가 신뢰할 수 있는 데이터를 기반으로 모델을 선택하고 개선할 수 있도록 플랫폼을 공정하게 지속 확장해 나가겠다”고 밝혔다.

주요 업데이트 내용

이번에 호랑이 리더보드 4는 네 가지 핵심 영역에서 평가 항목을 대폭 확장했다.

첫째, 고난이도 추론 평가 강화다. 최신 모델들의 추상적, 수학적 사고력을 세밀히 검증하기 위해 Arc-AGI, AIME2025 등의 벤치마크가 새롭게 추가됐다. 단순 질의응답을 넘어 논리적인 문제 해결 능력을 종합적으로 평가한다.

둘째, 전문지식 및 장문맥 이해 평가 고도화다. 기존 KMMLU 기반 평가에 더해 KMMLU-Pro, KMMLU-Hard, HLE, MRCR 등이 포함돼 고급 학문 수준의 이해력과 장문맥에서의 성능을 측정한다.

셋째, 애플리케이션 개발 능력 평가 신설이다. LLM이 실제 환경에서 코드를 작성하고 도구를 활용하는 능력을 평가하기 위해 BFCL(함수 호출), SWE-Bench Verified(버그 수정) 등을 도입했다. 이는 LLM이 단순한 텍스트 생성 모델을 넘어 에이전트의 구성 요소로 기능할 수 있는지를 검증한다.

넷째, 안전성 및 신뢰성 평가 확장이다. 생성 AI의 윤리성, 제어 가능성, 사실성 등을 다각도로 평가하기 위해 기존 데이터에 더해 IFEval-ko, HalluLens 등 항목이 추가됐다. 이를 통해 모델의 편향성, 제어성, 윤리성을 체계적으로 진단할 수 있다.

또한 강력한 Observability & evaluation 플랫폼인 W&B Weave를 통해 평가를 진행해 평가 과정과 결과의 투명성을 확보했다.

기업과 연구기관을 위한 활용성 강화

호랑이 리더보드 4는 비공개형 리더보드며, 기업과 연구기관은 신청 하에 프라이빗 환경에서 평가를 실행할 수 있다. 또한 W&B 엔터프라이즈 사용 기업은 자동평가 환경과 맞춤형 프라이빗 리더보드 구축 서비스도 지원받을 수 있다.

평가 결과는 W&B 플랫폼에서 시각화돼 모델별 성능·비용·안전성 지표를 빠르게 한눈에 비교·분석할 수 있다. 이를 통해 기업은 모델 선택과 배포 전략을 데이터 기반으로 시의적절하게 최적화할 수 있다.

※ 호랑이 리더보드 공식 사이트: https://horangi.ai

Weights & Biases 소개

Weights & Biases LLC(W&B)는 선도적인 AI 개발 플랫폼으로, MLOps 및 LLMOps 워크플로를 위한 End-to-End 지원을 제공한다. OpenAI, Toyota, Microsoft 등 30개 이상의 Global Top Foundation Model 개발사와 1000개 이상의 기업으로부터 신뢰받는 W&B는 개발자들이 머신러닝 및 대규모 언어 모델을 효율적으로 학습, 실험, 평가, 모니터링, 배포할 수 있도록 지원한다.

웹사이트: https://wandb.ai/site