참 말들 많습니다.
별로 관심 없었던 그만까지 순간 검색 사이트 몇 곳에서 금방 그녀(캐나다 강사)의 흔적을 찾아볼 수 있었습니다.
많은 분들이 문제제기를 합니다.
"제 2의 개똥녀 사건이다"
"개인정보 무작위 유출에 무방비다"
"그 신고한 고등학생이 의심스럽다"
"해외에서 포르노나 찍다니 그 여 강사는 불법행위를 했다"
등의 이야기들과 함께
매우 근본적인 토론 주제들을 던져주는군요. 게시판마다 후끈합니다.
"속인주의가 옳으냐"
"포르노가 과연 불법이냐"
그만은 이 논쟁 속으로 휘말릴 생각은 없습니다. 다만, 검색 시스템들이 갖고 있는 원본 유지와 원본 폐기 사이의 시간 차에 대해 생각해봅니다.
지금도 포털에서는 열심히 게시물 지우는 알바들이 정신없이 손을 놀리고 있을 겁니다. 검색해서 결과로 나온 것들을 클릭하고 들어가면 게시판 글이 삭제되거나 막혀 있는 경우를 보게 되는데 이런 경우죠.
하지만 이미 검색 결과에 나온 몇 개에서 짤막한 요약글이나 단락글을 보면 거의 모든 정보가 도출되는 경우가 많습니다.
이번 건이 그렇죠. 심지어 그녀의 실명과 마이스페이스닷컴에 있는 미니홈피, 그녀의 남편, 그녀의 캐나다 예명이 백일하에 드러납니다. 해외 사이트는 아예 지워지지도 않았구요. 그녀의 공식 홈피는 엄청난 트래픽으로 곤욕을 치르고 있습니다. 다들 '이런 사이트도 있네' 하며 보고 있겠죠.
검색엔진은 대부분 다음과 같은 절차에 의해 검색 결과를 보여줍니다.
여기서 문제가 발생됩니다. '미리보기'와 '저장된 페이지'는 원본이 사라진 뒤에야 인덱싱에서 제외됩니다.
실제로 사이트를 문을 닫을 때는 검색엔진에 자신의 사이트가 폐쇄됐음을 알리기 전까지 인덱싱 서버에는 그 페이지의 내용이 그대로 남습니다.
만일 문제의 원본 게시물이나 원본 사이트에 '불법적인 내용' 또는 '개인정보 유출 내용' 등이 담겨 있을 경우 심각한 문제가 될 수 있습니다.
이를 마케팅에 약삭빠르게 이용해먹는 '돈주는 사이트'니 '카니노'니 하는 곳들도 생겨납니다. 블로그에 포스팅을 올려놓고 인덱싱되기를 기다렸다가 스스로 내리거나 알바(정상적으로 부르면 사이트 운영 인력들)가 지울 때까지 기다리면 되거든요. 그 게시물은 생각보다 생명력이 깁니다. 포털 내부의 게시물을 이용하지 않고 포털 외부의 게시물을 이용하면 로봇 검색 주기가 2, 3일, 심지어는 한 달 간격인 국내 포털 검색에는 꽤 오랫 동안 '장수(?)할 수 있게 되죠.
게다가 해외 검색의 경우는 더욱 난감합니다. 지난 번 대만 사이트의 국내인 주민번호 유출사건의 경우 구글에게 정부가 나서서 인덱싱을 지워달라고 했을 정도였으니까요.
기술, 편리하지만 위험할 수 있습니다.
별로 관심 없었던 그만까지 순간 검색 사이트 몇 곳에서 금방 그녀(캐나다 강사)의 흔적을 찾아볼 수 있었습니다.
많은 분들이 문제제기를 합니다.
"제 2의 개똥녀 사건이다"
"개인정보 무작위 유출에 무방비다"
"그 신고한 고등학생이 의심스럽다"
"해외에서 포르노나 찍다니 그 여 강사는 불법행위를 했다"
등의 이야기들과 함께
매우 근본적인 토론 주제들을 던져주는군요. 게시판마다 후끈합니다.
"속인주의가 옳으냐"
"포르노가 과연 불법이냐"
그만은 이 논쟁 속으로 휘말릴 생각은 없습니다. 다만, 검색 시스템들이 갖고 있는 원본 유지와 원본 폐기 사이의 시간 차에 대해 생각해봅니다.
지금도 포털에서는 열심히 게시물 지우는 알바들이 정신없이 손을 놀리고 있을 겁니다. 검색해서 결과로 나온 것들을 클릭하고 들어가면 게시판 글이 삭제되거나 막혀 있는 경우를 보게 되는데 이런 경우죠.
하지만 이미 검색 결과에 나온 몇 개에서 짤막한 요약글이나 단락글을 보면 거의 모든 정보가 도출되는 경우가 많습니다.
이번 건이 그렇죠. 심지어 그녀의 실명과 마이스페이스닷컴에 있는 미니홈피, 그녀의 남편, 그녀의 캐나다 예명이 백일하에 드러납니다. 해외 사이트는 아예 지워지지도 않았구요. 그녀의 공식 홈피는 엄청난 트래픽으로 곤욕을 치르고 있습니다. 다들 '이런 사이트도 있네' 하며 보고 있겠죠.
검색엔진은 대부분 다음과 같은 절차에 의해 검색 결과를 보여줍니다.
로봇(실제 로봇이라고 생각하시는 건 아니겠죠?^^)으로 사이트 URL 및 페이지 내용 수집(인덱싱 과정이라고 부르죠)
검색엔진에 질의어(쿼리라는 것입니다)가 입력되면 위의 인덱싱에서 찾은 결과를 각 사이트마다의 고유한 랭킹 시스템에 의해 페이지가 구성되고 사용자에게 전송됩니다.
사용자는 URL과 제목 등에서 일치되는 검색 결과를 찾아 누릅니다. 그런데 사전에 '미리보기', 또는 '저장된 페이지'라는 인덱싱 서버에 저장된 데이터를 미리 보는 경우가 있습니다.
일단 사용자가 URL 링크를 따라 나가면 검색엔진은 사용자의 클릭률도 저장해 다음번 랭킹에 써먹습니다.
여기서 문제가 발생됩니다. '미리보기'와 '저장된 페이지'는 원본이 사라진 뒤에야 인덱싱에서 제외됩니다.
실제로 사이트를 문을 닫을 때는 검색엔진에 자신의 사이트가 폐쇄됐음을 알리기 전까지 인덱싱 서버에는 그 페이지의 내용이 그대로 남습니다.
만일 문제의 원본 게시물이나 원본 사이트에 '불법적인 내용' 또는 '개인정보 유출 내용' 등이 담겨 있을 경우 심각한 문제가 될 수 있습니다.
이를 마케팅에 약삭빠르게 이용해먹는 '돈주는 사이트'니 '카니노'니 하는 곳들도 생겨납니다. 블로그에 포스팅을 올려놓고 인덱싱되기를 기다렸다가 스스로 내리거나 알바(정상적으로 부르면 사이트 운영 인력들)가 지울 때까지 기다리면 되거든요. 그 게시물은 생각보다 생명력이 깁니다. 포털 내부의 게시물을 이용하지 않고 포털 외부의 게시물을 이용하면 로봇 검색 주기가 2, 3일, 심지어는 한 달 간격인 국내 포털 검색에는 꽤 오랫 동안 '장수(?)할 수 있게 되죠.
게다가 해외 검색의 경우는 더욱 난감합니다. 지난 번 대만 사이트의 국내인 주민번호 유출사건의 경우 구글에게 정부가 나서서 인덱싱을 지워달라고 했을 정도였으니까요.
기술, 편리하지만 위험할 수 있습니다.
2006/12/02 14:45
2006/12/02 14:45