서울공대 전기정보공학부 이정우 교수팀, 거대언어모델 정합성 높이는 AI 학습 기술로 ICML 2025 ‘스포트라이트’ 선정

세계 최고 AI 학회서 상위 2.6% 논문 선정돼 국내 AI 기술력 입증

더 사람답게 응답하는 AI로… 거대언어모델 실용성·안전성 향상 기대돼

서울--(뉴스와이어)--서울대학교 공과대학(이하 서울공대)은 전기정보공학부 이정우 교수 연구팀이 챗지피티(ChatGPT)와 같은 거대언어모델에 적용 가능한 강화학습 신기술을 개발했다고 밝혔다. 해당 기술을 제안한 논문은 인공지능(AI) 이론 분야의 국제학술대회 ‘ICML 2025’에서 전체 제출작 중 상위 2.6%에 해당하는 ‘스포트라이트(Spotlight)’ 논문에 선정됐다.

이정우 교수가 창업한 AI 자동학습 플랫폼 기업 ‘호두에이아이(HodooAI)’는 지난 7월 13일부터 20일까지 캐나다 밴쿠버에서 열린 ‘ICML 2025(International Conference on Machine Learning, 국제 기계학습학회)’에서 ‘Policy-labeled Preference Learning: Is Preference Enough for RLHF’ 제하의 논문을 발표한 바 있다.

이번 논문이 AI 분야 최고 권위 학회에서 상위 2.6%의 스포트라이트 논문으로 채택된 쾌거는 서울대 CML(Cognitive Machine Learning Lab) 연구실 및 호두에이아이의 자연어 처리 관련 AI 첨단 기술력을 국제적으로 입증했다는 점에서 의미가 깊다는 평가를 받고 있다.

연구 배경

ChatGPT 같은 거대언어모델(Large Language Models)이 사용자와 소통할 때 인간 가치에 정합하는 문장, 즉 실제 사람이 쓰는 수준 높은 문장을 쓰도록 유도하기 위해 ‘인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)’이라는 훈련법이 사용되고 있다. RLHF는 ‘보상함수를 단순히 최대화’하는 방식으로 AI를 훈련시켜, 사람이 선호하는 답변을 우선적으로 생성하도록 유도하는 AI 정합성 기술이다.

특히 최근에는 대부분의 언어모델에서 편향을 제거하거나 위법·위험한 정보의 제공을 방지하기 위해 RLHF가 기본적으로 활용된다. 그러나 이 방식은 보상함수 중심의 단순한 학습 구조로 인해 사용자가 선호하지 않는 두 문장의 우열을 억지로 비교해야 하는 상황이 학습에 반영될 수 있고, 이는 언어모델의 성능에 악영향을 미친다는 문제점을 지닌다.

연구 성과

이에 이정우 교수 연구팀은 AI 모델이 답변을 생성할 때 정합성 수준과 무관하게 단순히 선호도만을 반영하는 기존 RLHF와 달리, 충분히 신뢰할 수 있을 만큼 잘 훈련된 AI 모델이 생성한 결과에만 선호도를 반영하는 새로운 강화학습 기술인 ‘정책 레이블 기반 선호 학습(Policy-labeled Preference Learning, PPL)’을 제안했다.

연구팀은 PPL 개발 과정에서 RLHF의 치명적 한계, 즉 정합성이 낮아 바람직하지 않은 두 문장을 의미 없이 비교하는 비효율적인 AI 학습 구조를 개선하는 방향으로 접근했다. 그 결과 두 문장이 각각 어떤 수준의 AI 모델에서 생성됐는지를 고려해 그 정보를 학습 과정에 반영함으로써, 보다 정교한 최적화를 수행하는 PPL을 개발하는 성과를 거뒀다.

기대 효과

이 기술이 보편화될 경우, 거대언어모델의 정합성 학습 성공률을 2배 이상 향상시켜 일반 사용자들이 보다 안심하고 실무에 활용할 수 있는 기반이 마련될 것으로 기대된다. 학계 연구자들 역시 PPL을 토대로 AI 정합성에 관한 후속 연구를 한층 발전시켜 나갈 수 있으리라는 전망이다. 아울러 이 특허 기술은 향후 호두에이아이의 AI 플랫폼에서 ‘정합성 개선 거대언어모델’을 생성하는 핵심 기술로 사용될 예정이다.

연구진 의견

논문의 제1저자인 서울대 전기정보공학부 조태현 연구원은 “이번에 선보인 기술이 앞으로 AI 정합성관련 국내 기술력을 세계적 수준으로 끌어올리는 데 큰 역할을 할 뿐 아니라 앞으로 거대언어모델의 실용성과 안전성도 높일 수 있으리라 기대한다”며 “앞으로 강화학습의 자연어처리 연구에 집중할 계획”이라고 밝혔다.

연구를 지도한 이정우 교수는 “최고 권위의 AI 학회인 ICML 2025에서 상위 2.6% 논문에 채택돼 기쁘게 생각한다”고 소감을 밝히며 “더욱 혁신적인 기술을 개발해 한국 AI 스타트업의 기술 수준을 높이는 데 기여할 것”이라고 포부를 전했다.

연구진 진로

한국의 대표적인 ‘신뢰 가능한 AI(Trustworthy AI)’ 기술 전문가로 꼽히는 서울대 전기정보공학부 이정우 교수는 연구실 제자 5명과 함께 AI 플랫폼 기업 ‘호두에이아이(HodooAI)’를 설립한 바 있다. 이정우 교수가 발표한 이번 논문에 공저자로 참여한 서울대 전기정보공학부 조태현, 주석훈, 한승엽 연구원은 현재 거대언어모델 및 AI 정합성 개선 연구에 매진하고 있으며, 향후 학계에서 후속 연구를 수행하거나 글로벌 기업 연구소에서 근무할 예정이다.

참고자료

- 논문명/학회: ‘Policy-labeled Preference Learning: Is Preference Enough for RLHF’, International Conference on Machine Learning(ICML 2025)
- 논문 링크: https://arxiv.org/pdf/2505.06273

웹사이트: https://eng.snu.ac.kr/

연락처

서울대학교 공과대학
전기정보공학부
이정우 교수
02-880-1754
이메일 보내기

국내 최대 배포망으로 보도자료를 배포하세요