태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

요새 IEEE InfoVis 2009 컨퍼런스에 제출된 논문들을 구해서 찬찬히 읽어보고 있습니다. 2009년 10월에 열린 학회인데 게을러서 이제야 읽어보게 되네요;;
InfoVis는 정보시각화(Information Visualization) 분야의 학회로 이 블로그에서 다루는 주제와 아주 밀접한 관련이 있습니다. 오늘은 InfoVis에 소개된 논문 중 다음 것을 한번 소개해보고자 하는데요.

논문명:  Document Cards: A Top Trumps Visualization for Documents
저자   :   Hendrik Strobelt, Daniela Oelke, Christian Rohrdantz, Andreas Stoffel, Daniel A. Keim, Oliver Deussen

이 논문은 다음 동영상에 개념이 잘 설명되어있습니다.

Document Cards: A Top Trump Visualization for Documents from Hendrik Strobelt on Vimeo.



Document Card를 만드는 처리과정



이 기술은 어떤 PDF문서가 있으면 그 문서를 요약하는 카드를 만들어줍니다. 문서에서 사진을 뽑고, 중요한 키워드를 찾아서 적절하게 배치해주는 것이죠.

제가 이 논문을 소개하는 이유는 이 기술이 대단히 혁신적이라서 그런 것은 아닙니다. 바로 '요약'이라는 키워드에 관심이 있기 때문이죠.

지금까지 인터넷 검색엔진은 이용자가 입력한 검색어에 얼마나 딱 들어맞는 문서를 찾아주느냐에 집중하고 있습니다. 하지만 검색엔진은 정보를 찾아주기만 할 뿐, 그 정보를 전혀 요약해주지는 않습니다. 만약 검색을 했는데 300쪽짜리 책에 포함된 글이 나왔다고하면? 그리고 찾아준 문장이 앞 뒤 맥락을 모르고는 이해할 수 없다면? 우리는 꼼짝 없이 그 책을 읽어야합니다. 정보는 빨리 찾았지만, 그 내용을 이해하는데 또 시간이 한참 걸리는 것이죠.
 그런데 만약 그 책이 전혀 엉뚱한 책이었다면? 우리는 또 엄청난 시간을 낭비한 셈이 됩니다. 사실 이런 일은 상당히 자주 일어납니다. 사람들이 인터넷에서 좀 긴 글을 접하면 댓글로 "3줄 요약!"을 외치는 것은 다 이유가 있는 것이죠. 정보는 말 그대로 폭포같이 쏟아지는데, 엉뚱한 정보를 읽으면서 시간을 낭비하는 위험을 피하고 싶은 겁니다.

그래서 전 만약 검색엔진 다음으로 나와야할 기술로 '정보요약엔진'을 생각하고 있습니다. 불특정 다수의 정보를 모아서 읽는 사람이 빨리 이해하기 쉽도록 잘 표현해주는 기술이 이 '정보요약엔진'의 핵심 기술이 되겠지요. 하지만 이 기술은 자동화하기 어렵습니다. 기계가 사람이 쓴 글을 이해하고 뭐가 중요한지 판단해서 그 정보를 꿰뚫는 스토리까지 만들어 준다면 그거야말로 상당한 인공지능 기술이기 때문입니다.
 그래서 현재 검색업체들은 어느 정도 수작업을 통해서 정보를 요약해 보여주는 작업을 하고 있습니다. NAVER나 DAUM같은 국내 통합검색 서비스에 있는 '인물정보', '영화정보'같은 것이 그 예지요.  이런 '요약 정보'에 대해서는 국내검색업체들이 Google보다 더 강점이 있습니다. 그 때문에 Google이 국내 점유율을 늘리지 못하고 있는 것이기도 하고요.

 정보를 요약하는 기술은 정보의 양이 늘어나면 늘어날 수록 점점 더 필요해질 거라 생각합니다. 아직 기술적인 한계로 본격적으로 연구가 되고 있지는 않지만(어디선가 열심히 하고 있을 지도 모르지만요), 미래에는 반드시 중요하게 다뤄질 것입니다. 그리고 그 요약 기술에는 아마도 '정보시각화'가 중요한 역할을 하게 되지 않을까합니다. 텍스트보다 그림(시각화)이 훨씬 정보를 압축적으로 많이 전달할 수 있으니까요.

위 논문이 이런 제 생각과 맞아떨어지는 점이 있어서 이렇게 소개하게 되었습니다. :) 여러분은 어떻게 생각하시나요?
Posted by crefrog

댓글을 달아 주세요

  1. planet 2010.01.05 01:10 신고  댓글주소  수정/삭제  댓글쓰기

    너무나 공감하는 글입니다. 요약기술 정말 필요한 기술이라고 봅니다. 정보는 점점더 많아지고 있고, 검색결과는 점점 더 늘어가고 있으니 말이죠.
    무엇보다도 한정적인 시간이 기술 문서나 논문 자체도 좀 요약해서 보고 싶었는데..
    지금 저에게 너무나도 필요한 기술입니다. :)

    • crefrog 2010.01.05 13:05  댓글주소  수정/삭제

      t9t9님 새해 복 많이 받으세요 :)

      저도 요약하는 기술이 절실히 필요합니다.;; 누가 매일 저 대신 논문 읽어주고 3줄요약해줬으면 좋겠어요;;;

  2. Magicboy 2010.01.07 18:35  댓글주소  수정/삭제  댓글쓰기

    작년에 사내에 도입하려 했던 검색 엔진에서 문서요약기능을 제공해주던데..
    주요 단어 위주로 문장을 구성하는 형태더군요.. 이 글을 집어넣으면 아마도..

    이글은 문서 정보 요약 시각화 관련 글입니다. 정도로 나올까요?^^;

    그냥 텍스트마이닝분야로만 인식하고 있었는데, 정보 시각화와도 관련이 있을 수 있겠네요.

    • crefrog 2010.01.07 23:21 신고  댓글주소  수정/삭제

      그렇군요. 역시 누군가 저런 기술을 만들고 있을 것 같았습니다. :)
      혹시 그 검색엔진의 이름을 알 수 있을까요?

      정보시각화는 '요약된 정보'든 '원본 정보'든 결국 정보를 표현하는 방법론이니까 어디든 관련이 될 수 있을거라고 생각합니다. ^^

  3. stonegrandpa 2010.04.28 11:02  댓글주소  수정/삭제  댓글쓰기

    좋은 블로그를 운영하고 계시는군요. 자주 찾아 뵙겠습니다.
    정보 감사드립니다.

  4. dudejrrp 2011.02.15 17:11  댓글주소  수정/삭제  댓글쓰기

    블로그에서 언급하신 정보요약엔진의 사례는 벌써 등장한 듯 합니다.ㅎㅎ

    qwiki.com

    생각하시고 있는 사항이 위의 검색엔진과 같은 예 인가요?

    • crefrog 2011.02.16 15:27  댓글주소  수정/삭제

      네. 비슷하네요. :) 정보 감사합니다.
      qwiki말고도 앞으로 여러가지 시도가 있을 거라고 생각합니다~



세계 분쟁 사망자 비율 - 1400년부터의 역사

출처: War and Peace before 1945 - Max Roser 트위터에서 흥미로운 그래프가 리트윗되어서, 블로그에도 소개글을 씁니다. 이 그래프는 1400년 이후, 세계에서 일어난 각종 무력 분쟁에서 희생당한 사..

<정보는 아름답다>, 풍성한 인포그래픽 사례집

올해 초 데이비드 맥캔들리스의 책, <정보는 아름답다>가 국내에 번역 출간되었습니다. 데이비드 맥캔들리스는 저널리스트이자 인포그래픽 디자이너로 유명한 사람입니다. 그의 TED 강연은 한번 들어볼만한 가치가 있지요. 이 책도 ..

꽃 이름 찾기 - 국가생물종지식정보시스템의 예

이전 글: 꽃 이름 찾기 - 정보축 선택의 중요성 바로 전에 꽃 이름 색인에 대한 글을 썼습니다. 그 글에 mwtree님이 댓글로 제보해주셨는데요. 국가생물종지식정보시스템 사이트에 훨씬 자세한 꽃 이름 색인 서비스가 있다고 합..

꽃 이름 찾기 - 정보축 선택의 중요성

최근에 꽃 도감을 한 권 구입했습니다. 길 가다가 마주치는 꽃들의 이름이 궁금했거든요. 책은 꽤 두껍습니다. 소개된 꽃도 365종이나 됩니다. 그렇다면 이 책에서 내가 본 꽃의 이름을 찾으려면 어떻게 해야할까요? 하나하나 책..

데이터 시각화 관련 책, <아름다운 시각화> 번역 출간

<Beautiful Visualization>이 <아름다운 시각화>라는 제목으로 인사이트에서 곧 번역 출간 됩니다. <Beautiful Visualzation>은 2010년에 오라일리 미디어가 출판한 데이터 시각화 관련 서적..

서울 지하철 노선도 시각화 - 크기는 중요하다

서울 지하철 2호선에서 가장 마지막이나 처음 차량을 타면, 벽면에 크게 그려져있는 지하철 노선도를 종종 보실 수 있습니다. 지도가 벽면을 가득채우기 때문에 사람 키보다도 더 큽니다. 이 노선도는 보통의 노선도와 달리, 서울..

카토그램(Cartogram) - 선거 결과 지도를 효과적으로 나타내는 방법

그제는 한국에서 19대 국회의원을 뽑는 선거일이었습니다. 많은 분들이 선거 개표방송을 보거나 관련 신문 뉴스를 보셨을텐데요. 아마도 이런 지도 - 당선자의 소속 정당별로 지역구를 색칠한 지도 - 를 한번쯤은 보셨을 겁니다. (..

바람 지도(Wind Map)

링크: http://hint.fm/wind/index.html 미국 내 풍향 및 풍속 데이터를 받아서 지도 위에 시각화한 프로젝트입니다. 사이트에 가보시면, 바람이 진짜 부는 것처럼 애니메이션으로 풍속을 표현해놓은 것을 볼 ..

98% 파이 그래프 행렬?

강남역 카페에서 찍은 사진입니다. 나무 인테리어가 '한 영역이 98%정도 되는 파이 그래프들이 나란히 있는' 모양으로 보이니 저도 중증 데이터 덕후인가 봅니다. ;;; 사진을 보면 나무 막대들이 높이가 고르지 않게 튀어나와 ..

R.I.P. Steve Jobs
R.I.P. Steve Jobs 2011.10.06

생활과 통합된 디자인과 기술이 세상을 어떻게 바꾸는지 몸소 보여준 스티브 잡스의 명복을 빕니다.