울산대 한국어처리연구실, 한자 자동변환하는 프로그램 개발
울산대학교 전기공학부 한국어처리연구실(지도교수 옥철영 교수)의 신준철(27·박사과정)·김홍순(25·석사과정)·이용훈(24·석사과정) 팀이 한자 자동변환 프로그램으로 지난 10월 문화체육관광부와 국립국어원이 공동 주최한 ‘2011 국어정보처리시스템 경진대회’에서 최고상인 대상을 차지한 사실이 뒤늦게 알려졌다.
울산대 팀의 출품작품은 ‘UTagger’로, 한국어 문장에 대한 품사 및 동형이의어(同形異義語) 분별 시스템이다. 이 시스템은 국립국어원이 우리말의 정보화·세계화·표준화를 위해 만든 ‘21세기 세종계획 말뭉치’로부터 수집한 정보를 바탕으로 우리말의 형태소와 의미를 분석하는 프로그램이다.
이 프로그램은 문장 상에서 한글 단어의 뜻에 맞는 한자(漢子)를 자동으로 변환한다는 점에서 획기적인 기술로 평가받았다. 즉, 이 프로그램을 사용하면 PC 상의 문서작성에서 한글 뜻에 맞는 한자를 하나하나 찾아 바꾸는 작업을 하지 않아도 모든 글자가 자동적으로 변환되기 때문에 문서작성 시간을 크게 단축할 수 있다.
한자 변환과정은 ‘낱말 형태소 분석→동형이의어 분별→한자 적용’으로 간단하다.
동형이의어 분별은 글자 모양은 같지만 뜻이 다른 글자가 문장위치 및 문맥에 따라 놓일 수 있는 확률을 분석하는 방식으로 이루어진다. 이는 울산대 한국어처리연구실이 국립국어원의 ≪표준국어대사전≫에 실린 45만 개 단어 중 12만 5490개의 동형이의어에 대해 문맥에 따른 쓰임새를 기계·통계적으로 학습했으며, 28만 9054개의 한자를 등록했기 때문에 가능하다.
‘국회 특별 검사가 이번 비리의 검사를 담당하였다’란 문장에서 문제가 되는 동형이의어 ‘검사’ 변환은 앞쪽 ‘검사가’는 ‘검사/명사+가/주격조사’라는 형태소로 ①검사_02[檢事]{법률}_검찰권을 행사하는 사법관…67.00000000 ②검사_03[檢査] 낫고 못함을 판단하는 일…32.00000000로 분석돼 문장의 뜻에 맞을 확률이 높은 ‘檢事’로 변환된다. 반면 뒤쪽 ‘검사를’은 ‘검사/명사+를/목적격조사’ 형태소로 ①[檢査]…203.00000000 ②[檢事]…16.00000000로 분석돼 ‘檢査’가 적용된다. 나머지 한자들도 자동 변환되기에 한자가 많이 들어가는 법률문서, 보고서 등을 작성할 때 매우 편리하다.
또 이 프로그램은 사용자사전을 지원하도록 설계돼 누구나 신조어(新造語) 등을 등록할 수 있고, 등록 즉시 분석을 가능하게 해준다.
예를 들어 이 프로그램에서 ‘아이패드’는 ‘NNG(일반명사)’로 분석돼 ‘아이: 어린 나이의 사람 + 패드: 덧대는 것’이라는 정보밖에 주지 않는다면, ‘NNP(고유명사)’로 등록해 ‘태블릿PC 명칭’이라는 새로운 정보를 제공할 수 있다.
한국어처리연구실은 이번 개발된 ‘UTagger’의 원천기술을 연구용으로 공개하면서 한국어처리 연구자들이 누구나 자유롭게 사용할 수 있도록 하고 있어 연구의 선순환 효과도 크게 기대되고 있다.
울산대 한국어처리연구실 팀은 이 경진대회에서 옥철영 지도교수가 개발한 ‘동형이의어 분별 시스템’을 응용한 ‘세종말뭉치 검증 및 원시말뭉치 품사/동형이의어 태깅 시스템’으로 지난 2009년 금상, 또 ‘세종 형태 의미 말뭉치: 형태 분석 오류 수정 및 모든 동형이의어 태깅’으로 2010년 금상, 올해 대상을 차지함으로써 독보적인 연구업적을 쌓았다.
이번 한자 변환 원리를 ①몸을 얹다(ride) ②불이 붙다(burn) ③섞다(mix) 등 영어로는 형태가 다른 ‘타다’와 같은 낱말 등에 같은 방식으로 적용하면 한글-영어 번역도 보다 정확해진다.
울산대 한국어처리연구실 옥철영 교수는 “이번 연구는 질의어에 해당되는 문서만을 찾아주는 단순 정보검색에서, ‘사망’을 검색어로 할 경우 ‘죽다, 별세하다, 돌아가다’ 등 동일 의미의 문장까지 모두 찾을 수 있는 수준으로까지 발전할 수 있다”며 “컴퓨터가 백과사전에서 자동으로 지식을 구축하는 생물학적 사고(思考) 능력을 지닌 컴퓨터 프로그램 개발에 몰두할 계획”이라고 밝혔다.
웹사이트: http://www.ulsan.ac.kr
연락처
울산대학교 홍보팀
박동순
052-259-2627
이메일 보내기