얼마 전 온네트에서 마음에 쏙 드는 토종 검색엔진 '크로스마인드'를 개발중이라고 공식적으로 밝혔다. 이 기술은 RSS를 기반으로 사용자들이 관심을 갖고 주목하는(attention) 콘텐츠를 찾아주는 검색엔진 기반 기술이다. 이 검색엔진 기반 기술을 개발중인 온네트 CTO 박영찬 박사를 만났다.
구글의 페이지랭크라는 검색엔진 알고리즘을 통해 각 페이지들의 연관성을 추적해서 해당 콘텐츠의 신뢰도가 높은 순으로 검색 결과를 나열한다. 박영찬 박사가 주도하고 있는 '크로스마인드' 역시 구글의 페이지랭크나 첫눈의 스노우랭크 처럼 검색의 기반 기술을 말한다. 그는 "기존 검색들이 문서들에 대한 관계성에만 집중했다면 크로스마인드는 사용자 참여에 기반한 사용자 관심도까지 고려해 검색의 결과를 제공한다는 점이 가장 큰 차이점"이라고 설명했다.
즉, 콘텐츠가 생산되는 형태에 주목한 것이 기존의 검색엔진이라면 크로스마인드는 각 개인이 콘텐츠를 어떻게 활용하고 있어 얼마나 주목하고 있는지에 대한 로그(기록)를 분석해 적절한 검색 결과를 뿌려주므로 웹 2.0 시대에 맞는 개인화 검색이라고 박 박사는 강조했다.
온네트는 현재 데이터 처리를 위한 기술 개발과 함께 모란소프트와 제휴를 통해 언어처리엔진을 크로스마인드에 적용하는 과정을 거치고 있다. 이 서비스는 온네트가 개발해 서비스하는 피쉬(www.3fishes.co.kr)라는 RSS 구독기의 기본 검색엔진으로 선보일 계획이다. 추후 구글 처럼 웹검색 서비스로도 오픈할 예정이라고 박 박사는 설명했다. 검색 결과에 대해 영향을 미치는 것은 대부분 피쉬 사용자들의 이용 패턴과 이를 이용한 분석에 달려 있다.
RSS란 Really Simple Syndication, Rich Site Summary 등의 약칭으로 뉴스나 블로그 와 같이 컨텐츠 업데이트가 자주 일어나는 웹사이트에서, 업데이트된 정보를 쉽게 사용자들에게 제공하기 위해 XML을 기초로 만들어진 데이터 형태를 말한다. 최근 뉴스, 쇼핑, 블로그 등 콘텐츠 갱신 주기가 빠른 서비스들마다 RSS를 이용해 콘텐츠를 소통하고 있다.
이 RSS를 구독하고 활용하는 사용자들을 패널로 활용해 이들이 늘어나면 늘어날수록 각 콘텐츠의 신뢰도는 획기적으로 증가하게 되고 각 개인들의 관심사나 주목 여부에 따라 제시해줄 수 있는 검색 결과가 다양해진다는 것. 특히 RSS로 유통되는 콘텐츠들은 최근 벌어지는 일들에 대한 관심도가 즉각 반영되기 때문에 신뢰할 수 있는 최신 정보를 손쉽게 얻을 수 있다는 것이 그의 설명이다.
그는 "해외에서는 특징적인 검색엔진 개발이 연이어 나오고 있지만 국내에서는 대형 몇 개 업체들만이 개발할 수 있는 영역으로 굳어지고 있는 것이 아쉽다"며 국내 검색엔진 개발이 대형 포털 업체들 위주로 획일화되고 있다는 점에 대해 우려를 나타냈다.
최근 첫눈의 네이버 흡수 합병에 대해서는 서로 잘 아는 업계 선후배라는 점 때문에 말을 아꼈지만 "마치 검색엔진 분야가 대형 업체들만 할 수 있는 영역처럼 인식될까봐 걱정"이라면서 "아직도 검색엔진 분야에서는 할 일이 많다"고 잘라 말했다.
그는 크로스마인드의 일본 등 해외 진출에 대해서는 강한 자신감을 나타면서도 일단 검색 품질을 높이려면 상대적으로 보급이 더딘 RSS 활용율을 높이기 위한 노력이 더 필요하다고 강조했다.
다음은 박영찬 박사와의 일문일답.
온네트와 모란소프트와의 제휴는 구체적으로 어떤 내용이며 핵심 개발은 어디서 하는가? 외부에 이 검색엔진 기술이 보여지는 시기는 언제인가?
온네트와 모란소프트와의 협력은 이번 모란소프트의 언어처리엔진을 구매하는 것으로 시작되었으며 향후 지속적인 공동사업과 기술지원이 있을 예정이다. 일본진출과 다른 종류의 협력 서비스도 함께 논의하고 있다. 핵심 개발을 담당하는 개발팀은 온네트의 부설 연구소(연구소장 박형룡)에 구성되어 있습니다. 박영찬 박사와 조영환박사의 기술적 지원으로 크로스마인드 개발팀이 핵심 엔진과 서비스를 개발한다. 개발완료되어 베타서비스를 하는 것은 9월말을 목표로 하고 있다.
'크로스마인드'라는 이름이 인상적이다. 구글 검색엔진, 또는 첫눈의 웹검색엔진과 같은 개념인가?
크로스마인드는 엔진의 이름으로 구글의 페이지랭크(PageRank), 첫눈의 스노우랭크(SnowRank)와 같은 검색의 기반(framework)에 대한 명칭이다. 기존의 검색들이 문서들에 대한 관계성만을 집중했다면 크로스마인드는 사용자 참여에 기반한 사용자 관심도와 주목도(attention)까지 고려해 검색의 결과를 제공하는 것이 다른 점이다.
RSS 리더 피쉬의 검색엔진에 포함된다는 것은 어떤 의미인가? 자체 검색엔진 사이트가 아닌 기능상의 검색엔진 모듈이란 말인가?
크로스마인드가 제공하는 기능은 사용자의 관심도와 주목도(attention)를 검색에 활용하는 것으로 현재 어떤 문서에 사용자들이 관심을 보이고 있는지를 다양한 각도로 분석하여 검색 순위를 결정한다. RSS리더 피쉬에 검색 기능에 사용될 예정이며, 향후 웹RSS에도 적용이 된다. 그리고 별도의 서비스로 RSS로 접근 가능한 모든 문서 및 멀티미디어 자료에 대한 검색을 제공하는 구글처럼 범용적인 웹서비스가 제공될 예정이다.
검색엔진에서 가장 중요한 것은 색인확보 성능으로 알고 있다. 크로스마인드 검색엔진이 다른 검색엔진과 차별화되는 가장 중요한 강점은 무엇인가?
초기 크로스마인드는 RSS로 접근 가능한 모든 문서 및 멀티미디어 자료에 대한 검색을 제공한다. 즉 피쉬사용자의 관심 항목들을 모아서 검색사용자에게 제공하게 된다. 피쉬가 와이브로 및 이동단말에 포팅됨에 따라 모바일사용자에 대한 검색서비스 제공 등으로 그 영역을 확대할 예정이다.
크로스마인드 검색엔진의 가장 큰 차별점은 피쉬로부터 모아진 개별 사용자들이 관심을 갖고 주목하고 있는 모든 기록을 분석해 검색 순위에 활용하는 것이다. 물론 단순 검색외에도 추천 등의 개인화서비스가 제공될 예정이다. 즉 지금 각광받고 있는 문서가 어느 것이고 어떠한 문서에 사용자들이 관심을 보이는지 모아서 보여주는 기능이라고 할 수 있다.
최근 첫눈이 네이버에 인수됐으며 자회사 형태로 있던 다음소프트의 검색엔진 기술이 다음커뮤니케이션으로 모두 이관되고 있다. 네이트도 자체 검색엔진을 개발한다는 소식이다. 포털을 중심으로 움직이고 있는 이같은 검색엔진 개발 대결에서 상대적으로 중소 벤처업체들의 연합으로 만들어 낼 수 있는 검색엔진에는 한계가 있는 것이 아닌가?
자체 검색엔진을 확보하기 위해서 필요한 것은 이미 모두 확보를 했다. 색인능력도 10억건 이상의 문서를 다룰(처리할) 수 있고, 언어분석능력도 이번 모란소프트와의 제휴를 통해 국내 최고의 기술을 확보했다. 포털을 중심으로 한 검색이 기술적인 답보를 하고 있다면, 크로스마인드는 사용자 참여형 검색이라는 새로운 검색기술을 통해 사용자에게 새로운 검색서비스의 경험을 제공할 수 있으리라 생각한다. 물론 이러한 검색서비스는 기존 포탈에 제공해 사용자 경험의 폭을 더 넓힐 수 있으리라 예상된다.
RSS로 제공되는 콘텐츠의 양이 늘고는 있으나 일반 게시판이나 일반 웹 개발에서 콘텐츠 절대량에 비해 여전히 마이너 위치에 있다. RSS 콘텐츠를 기반으로 품질 좋은 검색이 가능한가?
RSS로 제공되는 컨텐츠의 양이 증가추세에 있기는 하지만 절대량으로는 마이너 위치인 것은 사실이다. 따라서 우리는 따로 로봇을 통해 컨텐츠 크롤링(정보 자동 수집)을 계획하고 있으므로 검색대상 확보에 대해서는 기존의 검색에 크게 뒤지지 않으리라 예상하고 있다.
RSS를 구독하는 사용자들의 정보와 로그를 분석한다고 하는데 또 다른 빅브라더 논쟁에 휘말릴 가능성도 있을텐데.
피쉬를 사용하는 사용자는 일종의 패널이다. 이들이 제공하게 되는 정보는 어떤 RSS를 참조하고 구독하느냐에 대한 패턴 양식들이다. 또한 이들 패널들 역시 신뢰도 평가를 통해 순위가 결정되므로 오히려 인터넷 정보 검색의 품질을 적극적으로 높이고 싶은 오피니언 리더나 얼리어답터들의 많은 참여를 기대하고 있다. 이들은 스스로 좋은 정보를 찾기 위해 노력하고 협력할 것이기 때문이다. 또한 이들 패널들의 정보는 무작위로 일부 샘플이 검색결과 분석에 영향을 미칠 것이다. 따라서 모든 사람들을 추적하고 이들을 감시하는 차원의 문제와는 다르다.
구글이 한국에서 웹 검색으로 위력을 발휘하지 못하듯 국내 검색엔진이 해외 진출에는 여러 어려움이 뒤따를 것으로 보인다. 그런데도 일본으로의 진출할만큼의 확인이 선 계기가 있는가. 일본에는 언제쯤 런칭하며 이외의 지역에는 언제쯤 런칭하는가?
검색서비스는 그 나라 고유의 언어처리 문제와 더불어 그 나라의 문화에 파고 들어야 하는 점의 두가지가 어려운 문제이다. 일본에 대해서는 일본의 언어분석엔진 도입이 이미 검토되고 있고 조만간 결정하게 된다. 일본서비스에서 기존 일본에서 사용자층을 확보하고 있는 익사이트제팬을 통해 피쉬서비스 및 검색서비스가 시작된다.
따라서 일본의 현지 문화에 대한 적응 및 초기 사용자 경험 확보는 비교적 쉬우리라 예상하고 있다. 일본은 올 9월 피쉬 서비스 런칭을 시작으로 내년 1월 본격 검색서비스 오픈을 계획하고 있다. 이는 온네트와 익사이트제팬이 공동 설립한 온네트제팬을 통해 추진되고 있다. ⓢ
----------------------> 번외로...^^ 그만이 "또 첫눈처럼 팔릴 거 만드는 거 아니냐"고 했더니 박 박사님께서는 "처음부터 그런 생각으로 개발하진 않는다"고 말하더군요. 충분히 니치 마켓이 존재하고 검색 품질에 대해서는 자신한다고 하는데 정말 그럴지 지켜보도록 하죠.
예를 들어 6만개의 블로그(올블로그에 등록된 수가 그 정도라네요)가 움직이는 곳을 블로고스피어로 인식하듯이 현재 2만 건의 다운로드와 약 2천 건의 실 사용자들이 '패널'이 되고 이를 기준으로 평균선을 구하고 이를 통해 사용자의 관심도를 유추하는 방식인거죠.
지금이야 다른 블로그들에서도 공개된 RSS를 통해 검색 자료 모으기 작업인 인덱싱을 하지만 결국엔 독자들의 관심도와 함께 해당 블로그의 레벨값을 보여주는 시스템인 셈이죠.
또 하나 동영상에서 보듯이 '사람의 기억'과 유사하다는 설명과 함께 약간 오래된 것은 상관없지만 가급적이면 검색과 일치되더라도 관심도가 떨어지는 콘텐츠는 뒤로 묻힐 수 있도록 레벨값이 조정되는 시스템을 사용한다고 합니다. 제 아무리 유사도가 높아도 최근의 관심도 높은 콘텐츠가 레벨이 높게 되는 것이죠.
이는 다른 검색과 다른 것입니다. 예를 들어 유사도나 정확도 등의 검색은 '정보 검색'에서 유용하지만 '시사 검색'이나 '생각 검색'은 나루에서처럼 최근 것이 가장 관심도가 잘 반영된 검색이라고 할 수 있으니까요.
그렇게 따지면 오래전 기억은 나루에서도 뒤로 한참 밀려나겠군요.
좋은 점으로 보면 '짧더라도 최근 업데이트된 주목받는 생각'을 검색할 수 있다는 점일테고 안 좋은 점이라면 그만큼 '정확한 정보성 콘텐츠'를 찾는 사용자에게는 적당하지 않을 수 있다는 것이겠죠.
흠, 그리고 말이죠. 조금 빗나간 말이지만 이런 말도 있었는데요.
왜 블로그 단위냐, 블로그 단위로 하면 팀블로그 등에서 혼란이 올 수 있지 않겠느냐...는 것이었는데요. 대부분 포스팅과 블로그 이름을 기준으로 검색 결과가 보여지기 때문인데요. 그만이 묻고 싶은 것은 그만이 참여한 팀블로그도 있을 것이고 그만이 여러개 블로그를 운영하는 경우도 있을테니 '그만'이라는 아이디를 기준으로도 정렬이 되어야 하는 것이 아니냐는 질문이었죠.
의외로 소홀한 블로그 브랜드 설정 그런데 놀랍게도 예를 들면, '링블로그-그만의 아이디어'라는 블로그 이름은 있는데 정작 글쓴이의 브랜드인 아이디 '그만'이 없는 경우가 태반(80% 이상?)이라고 하더군요.
따라서 없는 기준으로 정렬할 수 없으니 적어도 포스트 제목과 키워드에 매칭되는 글을 가장 많이 쓴 블로그를 구분해 내는 정도에서 그쳐야 한다는 점입니다.
이는 솔직히 블로거들 스스로가 '브랜드'에 대해 아직은 소극적인 양상을 보이기 때문이라는 생각이 듭니다.
예를 들어 '링블로그'라는 블로그 브랜드와 '그만'이라는 개인 아이디 브랜드는 정작 같을 수도 있고 다를 수도 있는 상황이 펼쳐지고 있기 때문이죠. 팀블로그, 멀티블로그 등의 참여 방식이 늘어나고 있다는 점에서 사이버 세계에서 자신의 이름과 브랜드를 적극 활용하는 것은 매우 중요하다는 생각입니다.
어찌됐든 아쉽게도 '태그'를 기준으로 검색, 정렬하는 등의 방법도 딱히 RSS 규격에서 표준화가 돼 있지 않은 부분이라 태그를 활용하는 검색에서는 약간 미진할 것으로 보입니다.
블로그계의 RPG, 레벨을 높여라?^^ 나루가 시작되면 재미있는 현상 하나가 '레벨값'이 될텐데요. 이는 꾸준히 관련 분야에 대해 글을 적는 사람에게는 매우 괜찮은 장치로 보입니다. 다만 다방면의 화제에 대해서 드문드문 글을 작성하는 사람의 경우 레벨값이 낮으 이유로 보이지도 않는 긴 롱테일 어디엔가에만 존재하는 상황도 발생되겠죠.
레벨을 표시하는 방법에 대해 '숫자', '카트라이더에서 사용되는 손가락' 'Top 아이콘' 등으로 열심히 생각해보다가 아무래도 게임이나 겨쟁 심리 등을 자극하기 위해 '레벨'이라는 용어를 사용한 것이 아닐까 합니다만..^^;
현재 블로그 세상에 가장 필요한 존재는 어쩌면 '독자'들일지 모르겠습니다. 독자들이 더 좋은 블로그를 찾고 자신이 원하는 정보는 물론 해당 내용에 정통한 지식인의 생각들을 빠르게 찾아줄 수 있는 검색이라면 많은 사람들에게 사랑을 받을 수 있을 것입니다.
모란소프트의 형태소 분석 엔진과 데이터베이스를 소스째 확보했다는 소개말에 상당히 귀가 솔깃했습니다.