정직해서 속이기 쉬운 기계

Ring Idea 2009/10/06 09:04 Posted by 그만
얼마 전 화제가 되었던 검색어 순위 조작 이야기는 아시죠?

특정 IP에서 동일한 검색어가 집중적으로 반복될 경우 이를 1로 처리하지만 한꺼번에 여러대의 PC에서 검색어가 반복될 경우엔 이를 걸러내기가 거의 불가능한 시스템을 악용한 것이다.
반복되는 검색어 순위 조작[임원기의 인터넷 人사이드]
오늘 오전에 올블로그에 접속해보니 아래 영역에 있는 자기 자랑하기 영역이 이렇게 되어 있군요.

사용자 삽입 이미지

기본적으로 올블로그의 [자랑하기] 코너는 자발적으로 자신의 글이나 자랑할만한 사안을 널리 알릴 목적이 강한 영역이었습니다. 그래서 '어뷰징' 대상이었죠. 여기서 어뷰징이란 의도적으로 속이는, 이른 바 사기성이 농후한 행동을 말합니다. 보시면 아시겠지만 똑같은 포스팅이지만 '제목'과 '계정'을 달리 하여 등록한 것입니다.

올블로그의 [자랑하기] 코너에 등록할 때 거쳐야 하는 최소한의 필터링을 손쉽게 속여 넘긴 것이지요. 인간이 아닌 기계가 '이것, 이것 아니면 통과' 식의 최소 조건이 충족될 경우 통과되는 시스템의 경우 기계를 속이긴 너무 쉽죠.

그럼 앞으로 가서 검색 순위 영역을 어떻게 봐야 할까요? 이렇게 '어뷰즈'까지 동원하는 것을 보면 분명 영향력 있는 미디어 영역이 되어버렸다는 것을 증명하는 셈인데요. 사실 서양에서는 흔히 검색 최적화, SEO(Search engine optimization)라는 분야를 "검색 결과 순위를 높이기 위해 최적화된 콘텐츠를 구성하도록 유도하는데 사용됩니다. 궁극적으로 사용자들이 가장 손쉽고 빠르게 원하는 결과를 찾을 수 있도록 하는 검색엔진의 기준에 맞추는 것이 '기술'이고 '노하우'라는 것이죠. 우리도 검색 순위 역시 이런 '최적화' 대상이 된 것은 마찬가지 아닙니까.

그런데 이 말은 우리나라로 와서(외국도 비슷하다고는 하지만) '광고주'들의 욕심과 단기간의 성과주의에 의해 검색엔진은 분석의 대상이 아니라 '공격 대상'으로 인식되고 있다는 점이 큰 차이일 거 같습니다. 물론 우리나라 검색엔진이 기술이 낙후돼 있다는 것은 둘째치고 한글 검색 자체가 조어 분리가 쉽지 않고 복합명사나 서술어 조합이 다양한데다 한자어가 많기 때문에 검색이 용이하지 않은 영역인 것이 분명합니다. 그래서 아예 검색엔진들은 사용자들의 검색 패턴을 드러내 보여주기 위해 '검색어 순위'를 전면에 배치해두었죠.

이 검색어 순위는 몇 가지 알고리즘에 의해 동작한다고는 하지만 가장 기본적인 원칙은 '가장 많이 입력된, 가장 많은 사람이 입력한, 가장 최근에 입력된' 등의 원칙이 적용되었을 것이 분명합니다. 그래서 '실시간 인기 검색어' 아니겠습니까. 물론 일부에서는 우리나라의 반자동 운영 기법에 의해 '조작'이라기보다 '수정'되고 '교정'되는 절차를 거치지만 시스템의 기준을 완전히 무시할 수는 또 없죠.

심심하면 불거져나오는 검색광고 어뷰징(사기, 조작) 역시 비슷합니다. 높은 입찰가가 선순위로 노출되고 클릭당 단가는 사전에 책정한 비용범위에서 지출되다가 클릭이 일정 수준에 도달하면 광고가 사라지게 하는 것을 이용해 경쟁사 광고를 사라지게 할 목적으로 무작위 클릭을 해대는 것이 이러한 어뷰징 수법이죠. 이것 역시 수많은 시행착오 끝에 데이터 '교정'과 '보정', 그리고 '의심 클릭 필터링' 등의 기법이 동원되고 있습니다.

기계는 결국 인간이 만들었지만 시스템 구조가 사전에 설정된 구체적 조건에 해당되느냐 마느냐에 따라 처리하고 안 하고를 정하는 2진법의 한계가 아닐까 싶기도 합니다. 선의를 위주로 구성된 시스템이 장난과 악의에 의해 순식간에 망가는 것을 경험하다 보면 성악설을 믿게된다죠. 집단지성이고 뭐고 저작물 무단복제와 같이 사이버 집단 범죄에 대해 죄책감도 낮다는 것도 문제입니다. 또 그것을 사주하는 멀쩡한 광고주들의 '먹고살려고 하는 짓'이라는 정당화에도 이제 좀 지쳐가네요.

하긴, 습관적으로 뻥쳐도 국가 수장으로 뽑아주시는 국민적 도덕성 수준에 큰 걸 기대하는 것도 좀 우습긴 합니다.

이러다가는 언젠가 기계에게도 애드리브를 허용해야 하지 않을까 싶기도 합니다. ^^
Writer profile
author image
링블로그 주인장 그만입니다. 그만에 대한 설명은 http://ringblog.net/notice/1237 공지글을 참고하세요. 제 글은 CC가 적용된 글로 출처를 표기하시고 원문을 훼손하지 않은 상태로 퍼가셔도 됩니다. 다만 글은 이후에 계속 수정될 수 있습니다.
2009/10/06 09:04 2009/10/06 09:04

TRACKBACK :: 이 글에는 트랙백을 보낼 수 없습니다

  1. 인기검색어의 유혹

    Tracked from 마루날의 雜學辭典|잡학사전  삭제

    정보 수용의 한계 검색엔진에서 가장 유용한 통계 중 하나는 질의어 로그입니다. 말 그대로 검색어 입력 창에 사용자가 직접 입력한 질의어들이 시간순서 별로 로그에 남게 되는데, 이 데이터를 분석해서 검색엔진 운영차원에서 어떤 컨텐츠를 보완해야 할지, 검색결과의 품질은 어떠한지 등을 검토합니다. roads and railways series #4 by woodleywonderworks 이 질의어 로그가 인기검색어라는 이름으로 가공[각주:1]되어서 공개되..

    2009/10/06 18:39
  2. [본문스크랩] 검색 조작은 범죄 행위입니다

    Tracked from 숲속얘기의 조용한 카페  삭제

    이번 사건 역시 안티 네이버 진영측에서는 역시 네이버~ 라고는 말하지만, 개인 PC 보안의심각성도, 그리고 그것을 근절하기 위한 노력을 하는 사업자도 눈에 들어오지 않는듯. 실시간 검색어가 아닌, 실시간 급상승 검색어에 대한 개념은 아직도 유저들은 이해를 못하고 있는 듯 합니다. 마치 그냥 재밌는 게임정도나, 여론의 순위정도로만 여기기 때문에 "이명박

    2009/10/12 10:18
  3. 인터넷의 미래는 실명이냐 익명일까?

    Tracked from 숲속얘기의 조용한 카페  삭제

    [이미지 출처 : http://blog.naver.com/kjmzzang0114?Redirect=LoglogNo=70070201163] 제가 이 화두를 이야기를 하려하는 것은 인터넷 전체를 실명 혹은 익명으로 만들어 버리는 이분법 적인 결론을 내리고자 함이 아닙니다. 사이버망명의 근원이 된 제한적 본인 확인제의 현상과 제가 생각하는 본질을 이야기해

    2009/10/13 10:48
1  ... 386 387 388 389 390 391 392 393 394  ... 1952 

카테고리

전체 (1952)
News Ring (644)
Column Ring (295)
Ring Idea (1004)
Ring Blog Net (8)
Scrap BOX(blinded) (0)

달력

«   2017/11   »
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30    

링블로그-그만의 아이디어

그만's Blog is powered by TEXTCUBE / Supported by TNM
Copyright by 그만 [ http://www.ringblog.net ]. All rights reserved.