링블로그-그만의 아이디어 :: 열린 정부, 닫힌 사이트

우리 나라에서 신뢰도 높은 자료를 가장 많이 갖고 있는 곳은 어디일까? 언뜻 대형 포털을 떠올렸다면 틀렸다. 대한민국 정부야 말로 가장 신뢰도 높은 자료를 가장 많이 보유하고 있는 곳이며 방대한 각종 국가 정보를 체계적으로 관리하고 있는 곳이기도 하다.

따라서 세금으로 운영되는 국가 정보는, 법적인 비밀이 아닌 이상 국민 누구나 열람 가능해야 하며 이를 활용할 수 있어야 한다.

하지만 대한민국 정부 부처 사이트를 조사한 결과 정부의 정보 공개 의지나 사이트 관리 수준에 대한 걱정부터 앞서게 된다.

정부사이트, 절반 robots.txt로 검색엔진 접근 막아
필자는 대한민국정부에서 운영하고 있는 사이트 가운데 전자 민원 창구 전용 전자정부(www.korea.go.kr)과 정보 공개 포털 열린정부(www.open.go.kr )을 비롯해 국회, 대법원 공식 사이트 등 정부 세금으로 운영되고 있는 사이트 총 81개 사이트의 정보 접근도를 조사했다.

여기서 정보 접근도는 다양한 방식으로 측정할 수 있겠지만 가장 기본적으로 사용자가 원하는 정보를 원하는 형태로 손쉽게 찾을 수 있느냐에 대한 것을 판단하기 위해 검색 엔진의 크롤링(정보 수집)에 대한 접근 허용 여부인 'robots.txt'의 유무를 조사했다.

조사 결과 총 81개 국가 기관 사이트 가운데 청와대를 비롯해 국정홍보처, 재정경제부, 국세청, 법무부, 정보통신부 등 국민들이 정보에 대한 기대 수준이 높은 37개 사이트들이 검색엔진의 접근을 막고 있었다.

robots.txt란 사이트 운영자가 자동화된 검색 엔진이 불필요한 정보 접근을 하거나 과도한 인덱싱을 통해 서버에 부하를 주는 것을 막기 위한 조치로 일종의 기술 업계의 약속과 같은 역할을 하는 파일이다. 이는 보안 기술 등으로 내용을 암호화 하는 것과는 다른 종류로 검색엔진 사업자들에게 들어와서 정보를 검색하지 말아달라는 부탁의 의미도 담고 있다. 이를 무시하고 들어오는 검색엔진은 IP차단 등의 기술로도 막을 수 있다.

robots.txt 파일의 내용 구성은 매우 간단해서 모든 검색엔진의 접근을 완전히 막을 수도 있고 특정 검색엔진의 접근만 차별적으로 막을 수도 있다. 또한 접근 허용과 접근 금지 디렉토리를 따로 지정할 수도 있다.

이색적인 것은 검색엔진의 접근을 막은 37개 사이트 가운데 29개 사이트는 '모든 검색엔진'을 대상으로 접근을 막았으며 나머지 8곳은 유독 '구글봇', 즉 구글 검색엔진만 막았다. 구글을 제외한 어떠한 검색엔진도 특정되지 않은 것을 보면 딱히 심각한 고민에 의해 구글을 제외했다고 보기도 힘들고 각 사이트들마다 특정에 맞춰 접근 디렉토리를 지정해둔 것도 아니다. 대부분 모든 검색엔진이 사이트의 모든 내용을 검색하지 못하도록 조치해두었다.

일각에서는 정보 공개 수준의 척도를 떠나서 민간 사업자가 운영하는 검색엔진에 정부 사이트의 정보를 손쉽게 허락할 수 있느냐고 반문할 수도 있을 것이다.

단연코 말하는데 정부 사이트는 웹(WWW)의 일원인 이상 공개할 수 있는 자료만 올려 놓는다는 전제 하에 국민의 세금으로 사이트를 구축했을 것이므로 정보 접근성을 높이는 것은 중요하다. 비밀에 준하는 정보의 경우 웹에 올려서도 안 되고 웹에 올려져 있다고 해도 절대 기술적인 보안 조치 없이는 공개해도 안 된다. 따라서 정부 사이트는 국민의 세금으로 구축되고 운영되므로 이에 대한 이용을 확대시키기 위해서는 검색엔진의 접근을 막아서는 안 되고 그럴 수 있는 명분도 없다.

구글( www.google.co.kr)이나 네이버(www.naver.com) 등도 robots.txt로 자신의 DB를 보호하고 있지 않느냐고 물을 수도 있겠다. 하지만 일단 검색엔진들이 robots.txt를 사용하는 것은 검색결과에 대한 인덱싱을 타 검색엔진이 가져가 사용할 경우 무한 검색결과 속으로 빠질 수 있기 때문이다. 네이버 지식인의 경우 좀 다른 것이지만 검색엔진 사업자가 동시에 포털 사업자인 경우 자사의 데이터베이스 접근을 자사 검색엔진에만 허용하겠다는 정책에 대해서 도의적인 비판은 가능하나 상도의에 크게 어긋나지는 않는다.

하지만 세금으로 운영되는 공공 기관은 처지가 다르다. 정부는 정보공개청구가 없더라도 국민 생활에 필수적인 정보는 최대한 공개한다고 천명해왔다. 이에 따라 지난해 4월에는 정보공개포털 '열린정부'(www.open.go.kr)를 개설하기도 했다. 이 사이트는 중앙 행정기관, 지방자치단체, 교육청 등 공공기관의 정보목록 검색에서부터 정보공개 청구, 공개 자료 열람까지 한 번에 모든 과정을 처리할 수 있다고 홍보해왔다.

그런데 약 13개월 동안 고작 월 평균 이용자가 7만5593명에 불과하다. robots.txt로 검색엔진의 접근을 막아놓았으니 이 사이트를 직접 찾아오는 사람의 수가 적을 수밖에 없다. 이는 아주 작은 사이트 단위인 블로그나 중소 쇼핑 사이트의 검색 최적화(SEO)를 통한 방문자 유입과 비교해봐도 그리 자랑할만한 수치가 아니다. 다시 말하는데 국민들로부터 소외받는 사이트는 세금으로 운영될 명분이 없다.

풍부한 한글 웹검색 결과, 정부부터 검색엔진 최적화에 서둘러야
지난 여름 정보통신부와 한국정보사회진흥원이 발간한 '2007 국가정보화백서'에 따르면 우리나라는 주요 50개 나라 가운데 3위의 국가 정보화 수준인 것으로 나타났다. 스웨덴과 미국에 이은 성적이다. 초고속 인프라 및 각종 뉴미디어 접근성이 높은 우리나라로서는 당분간 상위권을 지속적으로 유지할 것으로 보인다.

그러나 IT 인프라의 우위에서 더 나아간 정보와 콘텐츠 수준을 한층 더 높이려면 수준 높고 신뢰도 높은 자료들이 풍성하게 마련돼 있어야 한다. 이는 정부가 가장 잘 하는 역할이며 이를 활용하는 사람들은 정부 사이트를 직접 찾아 방문하지 않아도 일반적으로 방문하는 검색 사이트를 통해 접근할 수 있어야 한다.

우리나라 검색엔진에 대한 불만을 따져보면 폐쇄형이기 때문이라고 한다. 하지만 정작 검색 사업자들은 제휴 등을 통해 데이터베이스를 제공받지 못하면 자동화된 검색 로봇으로 확보할 수 있는 신뢰할만한 정보의 양이 적을 수밖에 없다고 털어놓는다.

이미 웹에 공개되어 있는 정보들을 손쉽게 연결하고 찾아줄 수 있는 기술을 갖고 있더라도 웹사이트 운영자로부터 '초대받지 않는 손님' 취급을 받는다면 국민들의 손에 쥐어줄 검색 결과는 빈약해질 수밖에 없다.

반면 robots.txt 파일 하나가 법적인 구속력을 가진 것이 아니라는 점에서 차라리 이러한 규칙을 무시하고 정보를 확보하는 검색 서비스가 더 품질이 높을 것이라는 것은 손쉽게 상상할 수 있는 내용이다.

한글 웹검색에 이상하게 고품질 내용이 걸리지도 않고 정부 사이트는 점차 소외되는 현상이 일어나는 것은 이러한 소극적인 정보 공개 방식 때문은 아닌지 정부는 스스로 되돌아 볼 일이다.

■ 국가 기관 robots.txt 운영 실태(http://www.ringblog.net/1151 )

■ 관련 포스트 : robots.txt 문법도 틀린 국가기관 사이트 [스마트플레이스]

------------------------------------------------------->
이 글은 전자신문인터넷 이버즈에 오늘 날짜로 송고된 칼럼입니다.

Writer profile

링블로그 주인장 그만입니다. 그만에 대한 설명은 http://ringblog.net/notice/1237 공지글을 참고하세요. 제 글은 CC가 적용된 글로 출처를 표기하시고 원문을 훼손하지 않은 상태로 퍼가셔도 됩니다. 다만 글은 이후에 계속 수정될 수 있습니다.

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

링블로그-그만의 아이디어

열린 정부, 닫힌 사이트

TRACKBACK :: 이 글에는 트랙백을 보낼 수 없습니다

자료 : robots.txt로 검색 막은 정부 사이트

robots.txt 문법도 틀린 국가기관 사이트

갈길먼 정부기관의 만인을 위한 정보공유.

링블로그-그만의 아이디어 - 최근 공지

공지사항

카테고리

달력

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

링블로그-그만의 아이디어