공공기관 이미지자료, 문서처럼 쉽게 검색 가능해진다
국가기록원 소장자료 전문검색서비스의 실현은 검색의 효율성이 높아짐과 동시에 소장 자료의 정보 접근성을 높임으로써 업무효율 및 대국민서비스 활성화를 이룰 수 있을 것으로 예상된다.
특히, 소장자료에 대한 정보를 데이터베이스화해야 하는 업무 즉, 색인목록 자동화 및 목차정보 자동화 등에는 기존 수작업 비율을 70% 이상 절감함으로써 업무의 효율성 및 비용절감의 효과를 기대할 수 있다.
또한, 이번 연구로 각종 고문서를 소장하고 있는 도서관 및 공공기관에서 보유한 소장자료의 디지털화에 활용할 수 있으며, 이미지데이터 활용을 위한 자료 분석, 기술 연구 개발, 지식베이스 축적을 위한 자료로 활용 할 수 있을 것이다.
그간 국가기록원을 비롯해 도서관과 같은 공공기관에서는 많은 종이기록물들을 이미지화하여 원문이미지 서비스를 제공해 왔다.
그러나 이미지데이터는 전체 문서내용에 대한 검색이 불가능하여 빠른 자료 접근에 대한 서비스를 제공하지 못하고 있으며, 수작업으로 색인(문서의 제목, 저자, 주제, 관련 키워드 등)을 작성하여 검색이 이루어지고 있어, 소장자료 접근에 대한 효율성이 떨어진다는 단점과 작성된 색인데이터는 충분하지 못하고 정확성이 떨어진다는 문제점도 지니고 있는 것이 현실이었다.
소장이미지자료의 전문검색서비스의 실현은 이미지데이터를 검색이 가능한 텍스트로 변환하는 문자인식 기술이 핵심이라고 할 수 있다.
기존 국내 상용 문자인식 기술은 대상문서의 변화에 따라 인식성능이 크게 변하는 불안정성을 지니고 있다. 이는 전문검색 활용에 큰 장애요인이 되고 있다.
전문검색서비스는 소장 자료에 대한 사전 분석을 통해 특화된 이미지 분석 기술 및 라이브러리, 소장자료를 잘 표현하는 지식베이스 구축을 통해 문서 인식률을 높일 수 있게 될 것이다.
연구를 통해 개발된 지능형 인식 라이브러리 및 문서인식시스템과 방법은 특허출원 중에 있다. 또한, 지능형 인식 라이브러리가 결합된 문서인식시스템을 통해 방대한 국가기록원내 소장이미지자료를 대상으로 다양한 성능평가를 위한 테스트베드 구축이 진행되고 있다.
외국의 유수한 도서관 소장자료 디지털화를 위한 연구개발에 비해 국내의 경우 국가적인 측면에서 문서인식기술의 연구 개발에 대한 투자는 전무했었다. 이번 국가기록원의 연구개발은 소장자료 디지털화 선진사례에 부합하는 것으로, 향후 국내에서 문자인식 및 문서인식 기술의 고도화를 촉진할 수 있는 계기가 될 수 있을 것으로 전망하고 있다.
웹사이트: http://www.archives.go.kr
연락처
국가기록원 보존복원연구과
박성배
031-750-2342