서울공대 컴퓨터공학부 송현오 교수팀, LLM 챗봇 ‘대화 메모리’ 3~4배 압축하는 AI 기술 개발

AI 분야 최고 권위 학회 NeurIPS 상위 0.35% Oral 논문으로 선정

챗봇 답변 시간 단축, 메모리 비용 절감, 정확도 유지하는 기술 KVzip 제안

해당 논문 포함 NeurIPS 2025 논문 3편 채택 및 TMLR 1편 게재 성과

서울--(뉴스와이어)--서울대학교 공과대학은 컴퓨터공학부 송현오 교수 연구팀이 장문 대화 및 문서 요약 등 긴 맥락(context)이 전제되는 작업에서 거대언어모델(LLM) 기반 챗봇의 ‘대화 메모리’를 지능적으로 압축하는 AI 기술 ‘KVzip’을 개발했다고 밝혔다.

‘대화 메모리’는 챗봇이 사용자와의 대화 중 문장, 질문, 응답 등의 맥락을 임시로 저장해 현재 혹은 이후의 응답 생성에 활용하는 정보를 말한다. KVzip을 활용하면 챗봇이 스스로 문맥을 복원하는 과정에서 복원에 필요하지 않은 정보를 제거함으로써 대화 메모리를 효율적으로 압축할 수 있다. 이 획기적 기술은 다양한 태스크를 수행하는 챗봇의 정확도는 유지하되 대화 메모리는 줄이고 답변 생성 시간은 단축할 수 있는 길을 열었다는 평가를 받고 있다.

‘KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction’ 제하의 이번 논문은 H5-index 371*을 기록한 AI 분야의 세계 최고 권위 학회 ‘NeurIPS 2025’에 제출된 논문 2만1575편 중 0.35%에 해당하는 상위 77편에 선정, 구두 발표(Oral Presentation) 대상으로 채택됐다.

* H5-index : Google Scholar가 집계한 논문 인용 기반 학술 영향력 지수

연구 배경

최신 LLM 챗봇은 수백에서 수천 페이지에 달하는 방대한 문맥을 바탕으로 대화, 코딩, 질의응답 등의 작업을 수행하고 있다. 그러나 대화가 길어질수록 ‘대화 메모리’가 누적돼 메모리 비용 증가 및 응답 지연의 문제가 발생한다.

이를 해결하기 위해 등장한 기술이 바로 ‘메모리 압축(memory compression)’이다. LLM 챗봇이 과거 대화나 문서 내용을 모두 보관하지 않고도 중요한 맥락을 기억할 수 있도록 핵심 정보만 남기고 나머지를 제거하거나 축약하는 기술이다. 하지만 기존의 압축 기법들은 대부분 챗봇이 현재 받는 질문에만 최적화됐기 때문에 새로운 후속 질문을 받을 때는 챗봇 성능이 크게 저하되는 한계가 있었다.

연구 성과

이 제약의 극복에 나선 연구진은 긴 맥락에 기반한 대화에서 LLM 챗봇의 ‘대화 메모리’를 효과적으로 줄이면서도 동일한 정확도를 유지하는 기술 ‘KVzip’을 고안했다. 이 기술은 문맥 복원에 필요한 정보만 남기는 방식으로 메모리 압축을 수행해 한 번의 압축만으로도 챗봇이 다양한 후속 질문에 대응할 수 있도록 설계됐다.

실제로 질의응답, 검색, 추론, 코드 이해 등 여러 과제에서 정확도 저하 없이 메모리를 3~4배 절감하고, 응답 시간은 약 2배 단축하는 성과를 달성했다. 아울러 Llama 3.1, Qwen 2.5, Gemma 3 등 주요 오픈 소스 LLM 모델에서 최대 약 17만 토큰(token)* 규모의 초장문 맥락에까지 그 효용을 입증했다.

* 토큰(toekn) : LLM이 이해할 수 있도록 텍스트를 쪼갠 최소 단위의 문자열 조각

또한 서로 다른 유형의 후속 질문이 여러 차례 이어지는 상황에서도 챗봇의 응답 품질을 안정적으로 유지함으로써 기존 메모리 압축 방식의 일반화 한계를 극복했다. 아울러 해당 기술은 엔비디아(NVIDIA)의 KV 캐시 압축 라이브러리인 KVPress에 통합돼 손쉽게 활용 가능한 강점을 지닌다.

기대 효과

향후 KVzip은 기업 규모의 대규모 검색 증강 시스템(RAG)과 사용자 개인화 맥락을 활용하는 챗봇 등 기업 수준의 LLM 서비스 운영에 널리 활용될 것으로 전망된다. 동일한 정보를 3~4배 가볍게 보관하고 답변 생성 지연 시간을 약 2배 단축함으로써 같은 서버로 더 많은 동시 사용자와 더 긴 대화를 처리하면서 운영비를 크게 절감할 수 있기 때문이다.

또한 질문 유형이 바뀌어도 동일한 압축 메모리를 재사용할 수 있어 매 질문마다 재압축을 수행할 필요가 없으며, 후속 질문에 따른 성능 저하 우려도 없다. 이러한 특성은 메모리 제약이 큰 모바일 및 에지(Edge) 환경에서도 긴 맥락에 기반한 개인화 기능을 안정적으로 제공하는 데 유리해 KVzip의 다양한 상용화 가능성을 기대할 수 있다.

연구책임자 의견

연구를 지도한 송현오 교수는 “KVzip은 긴 맥락을 필요로 하는 LLM 챗봇에서도 꼭 필요한 정보만 남겨 재사용이 가능한 압축 메모리를 구현했다는 점에서 의미가 크다”며 “향후 실제 서비스 및 온디바이스(on-device) 환경에서의 적용과 추가 최적화를 통해 긴 문맥에서도 일관된 품질과 빠른 속도를 보장하는 방향으로 연구를 이어가겠다”고 밝혔다.

연구진 진로

이번 논문의 제1저자인 김장현 박사는 애플(Apple) AI/ML 파운데이션 모델(Foundation Models) 팀에 머신러닝 연구원으로 합류할 예정이다.

그 외 성과

한편 송현오 교수가 이끄는 머신러닝 연구실은 NeurIPS 2025에 2편의 포스터 발표 논문이 채택되고, 국제학술지 ‘트랜잭션 온 머신러닝 리서치(Transactions on Machine Learning Research, TMLR)’에 논문 1편이 게재되는 성과도 거뒀다.

연구진은 NeurIPS 2025에 채택된 ‘Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment’ 제하의 논문을 통해 거대언어모델의 양자화 과정에서 레이어별 비트폭(bitwidth)을 어떻게 최적으로 할당할 수 있는지를 이론적으로 분석하고, 최적 비트 할당을 현실화하기 위한 분수비트 양자화기 집합 ‘Q-Palette’를 개발했다. 해당 기법은 기존 양자화 방식 대비 동일 성능에서 약 36%의 추론 속도 개선에 성공했다.

역시 NeurIPS 2025에 채택된 ‘Learning to Better Search with Language Models via Guided Reinforced Self-Training’ 제하의 논문에서는 대규모 언어모델이 추론 과정에서 스스로 더 나은 탐색 전략을 학습하도록 유도하는 새로운 강화학습 알고리즘 ‘Guided-ReST’를 제시했다. 이 기법은 고난도 연산 추론 벤치마크 Countdown에서 정확도와 추론 효율을 각각 10%, 50% 향상시키는 성과를 달성했다.

또한 TMLR에 실린 ‘Large-Scale Targeted Cause Discovery with Data-Driven Learning’ 제하의 논문에서는 표적 변수의 인과 변수를 효율적으로 추론하는 ‘지도학습 기반 인과 추론 기법’을 제안했다. 해당 방법은 변수 수가 늘어나도 복잡도가 선형적으로 확장되도록 설계돼 대규모 시스템에도 적용 가능하며, 유전자 조절 네트워크에서 최첨단 수준의 인과 발견 성능을 입증했다.

참고자료

1. NeurIPS Oral 논문
- 논문명 : KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction
- 링크 : https://arxiv.org/pdf/2505.23416
2. NeurIPS Poster 논문
- 논문명 : Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment
- 링크 : https://arxiv.org/pdf/2509.20214
3. NeurIPS Poster 논문
- 논문명 : Learning to Better Search with Language Models via Guided Reinforced Self-Training
- 링크 : https://arxiv.org/pdf/2410.02992
4. TMLR 논문
- 논문명 : Large-Scale Targeted Cause Discovery with Data-Driven Learning
- 링크 : https://arxiv.org/pdf/2408.16218

웹사이트: https://eng.snu.ac.kr/

연락처

서울대학교 공과대학
컴퓨터공학부 머신러닝 연구실
송현오 교수
02-880-7272
이메일 보내기

국내 최대 배포망으로 보도자료를 배포하세요