본문 바로가기

정보시각화 소식

Document Cards: 문서 정보를 요약해서 보여주는 기술

요새 IEEE InfoVis 2009 컨퍼런스에 제출된 논문들을 구해서 찬찬히 읽어보고 있습니다. 2009년 10월에 열린 학회인데 게을러서 이제야 읽어보게 되네요;;
InfoVis는 정보시각화(Information Visualization) 분야의 학회로 이 블로그에서 다루는 주제와 아주 밀접한 관련이 있습니다. 오늘은 InfoVis에 소개된 논문 중 다음 것을 한번 소개해보고자 하는데요.

논문명:  Document Cards: A Top Trumps Visualization for Documents
저자   :   Hendrik Strobelt, Daniela Oelke, Christian Rohrdantz, Andreas Stoffel, Daniel A. Keim, Oliver Deussen

이 논문은 다음 동영상에 개념이 잘 설명되어있습니다.


Document Card를 만드는 처리과정



이 기술은 어떤 PDF문서가 있으면 그 문서를 요약하는 카드를 만들어줍니다. 문서에서 사진을 뽑고, 중요한 키워드를 찾아서 적절하게 배치해주는 것이죠.

제가 이 논문을 소개하는 이유는 이 기술이 대단히 혁신적이라서 그런 것은 아닙니다. 바로 '요약'이라는 키워드에 관심이 있기 때문이죠.

지금까지 인터넷 검색엔진은 이용자가 입력한 검색어에 얼마나 딱 들어맞는 문서를 찾아주느냐에 집중하고 있습니다. 하지만 검색엔진은 정보를 찾아주기만 할 뿐, 그 정보를 전혀 요약해주지는 않습니다. 만약 검색을 했는데 300쪽짜리 책에 포함된 글이 나왔다고하면? 그리고 찾아준 문장이 앞 뒤 맥락을 모르고는 이해할 수 없다면? 우리는 꼼짝 없이 그 책을 읽어야합니다. 정보는 빨리 찾았지만, 그 내용을 이해하는데 또 시간이 한참 걸리는 것이죠.
 그런데 만약 그 책이 전혀 엉뚱한 책이었다면? 우리는 또 엄청난 시간을 낭비한 셈이 됩니다. 사실 이런 일은 상당히 자주 일어납니다. 사람들이 인터넷에서 좀 긴 글을 접하면 댓글로 "3줄 요약!"을 외치는 것은 다 이유가 있는 것이죠. 정보는 말 그대로 폭포같이 쏟아지는데, 엉뚱한 정보를 읽으면서 시간을 낭비하는 위험을 피하고 싶은 겁니다.

그래서 전 만약 검색엔진 다음으로 나와야할 기술로 '정보요약엔진'을 생각하고 있습니다. 불특정 다수의 정보를 모아서 읽는 사람이 빨리 이해하기 쉽도록 잘 표현해주는 기술이 이 '정보요약엔진'의 핵심 기술이 되겠지요. 하지만 이 기술은 자동화하기 어렵습니다. 기계가 사람이 쓴 글을 이해하고 뭐가 중요한지 판단해서 그 정보를 꿰뚫는 스토리까지 만들어 준다면 그거야말로 상당한 인공지능 기술이기 때문입니다.
 그래서 현재 검색업체들은 어느 정도 수작업을 통해서 정보를 요약해 보여주는 작업을 하고 있습니다. NAVER나 DAUM같은 국내 통합검색 서비스에 있는 '인물정보', '영화정보'같은 것이 그 예지요.  이런 '요약 정보'에 대해서는 국내검색업체들이 Google보다 더 강점이 있습니다. 그 때문에 Google이 국내 점유율을 늘리지 못하고 있는 것이기도 하고요.

 정보를 요약하는 기술은 정보의 양이 늘어나면 늘어날 수록 점점 더 필요해질 거라 생각합니다. 아직 기술적인 한계로 본격적으로 연구가 되고 있지는 않지만(어디선가 열심히 하고 있을 지도 모르지만요), 미래에는 반드시 중요하게 다뤄질 것입니다. 그리고 그 요약 기술에는 아마도 '정보시각화'가 중요한 역할을 하게 되지 않을까합니다. 텍스트보다 그림(시각화)이 훨씬 정보를 압축적으로 많이 전달할 수 있으니까요.

위 논문이 이런 제 생각과 맞아떨어지는 점이 있어서 이렇게 소개하게 되었습니다. :) 여러분은 어떻게 생각하시나요?