웹검색로봇

Web Spider. 인터넷을 돌아다니며 정보를 수집하는 로봇. 대부분 검색 엔진에서 사용한다. 사용자의 목적에 맞는 정보를 찾고있는 로봇도 있기는 있다.

http://www.robotstxt.org/ The Web Robots Page.
http://www.robotstxt.org/wc/exclusion.html 로봇 배제 규약

bab2는 저런 것을 보면, 어떤 식으로 주소를 찾아내어, 페이지를 갈무리하고 다른 링크를 찾는건지 무지무지 신기합니다. 이메일 추출기라는 것도 최근에 와서야 우연히 접해보게 되었는데, 이것도 신기함 그 자체였답니다.
알고리즘을 전혀 모르기 때문에 마냥 신기해하는 것인지도 모르겠습니다.

웹 검색 로봇의 기본적인 원리는, '링크따라 삼만리(링크를 따라가서 페이지의 링크를 또 따라가고.. 그 페이지에서 또 링크를 따라..)' 입니다. 이메일 주소 추출기의 원리는 '링크따라 삼만리 + 메일 서비스별로 특별한 루트를 통해' 정도로 보시면 되겠습니다.

'뭐 저런 방식이 다 있어?'하겠지만, 카더라통신에 따르면, 인터넷상의 모든 정보는 평균 19번의 클릭으로 접근 가능하다고 합니다. 그런걸 보면 인터넷 마저도 멀고도 가까운 세상이죠. -- 최종욱

SeeAlso SixDegreesOfSeparation.

사실은 검색로봇의 출입여부를 어떻게 체크하고, 어떤식으로 차단해야 하는지에 대해서 관심이 생겨서 페이지를 만든 겁니다. 다른 여러페이지에 이것들을 차단하는 방법에 대해서 나와있지만, 이해가 가지 않기도 하고요. - bab2

대부분의 서버 프로그램에서 접속 기록(log)가 남습니다. 한 주소에서 매우 짧은 간격으로 모든 페이지에 방문할 때, '아, 긁어갔구나-_-;' 하면 되는 겁니다. 기술적으로 몰아낼 방법은 거의 없는 것으로 압니다(천천히 긁어가면 되니까).

그래서 서버 운영자들이 도저히 안되겠다~ 나 죽겠다~ 해서 '로봇 접근 금지' 라는 팻말을 세워놓게 되었습니다. 그것이 바로 robots.txt (맞나?) 파일입니다. 웹 로봇(스파이더)들은 모든 웹페이지에 방문할 때에 해당 웹페이지의 디렉토리에 robots.txt를 읽어보고 긁어가야 한답니다. 그게 표준인가 봅니다. (카더라통신) -- 최종욱

질문과답변 아랫쪽에 보면, 접속한 사용자의 브라우저가 로봇일 경우와 일반 웹브라우저인 경우가 다릅니다. 이것을 토대로 필터링을 할 수도 있습니다. 하지만, 언제나 득과 실을 따져보아야겠죠. 오버헤드가 너무 클지도 모릅니다. - 선

[edit]

robots.txt를 무시하는 로봇들 ¶

empas_robot: 무지막지한 로봇. MoinMoin위키를 탐색할 경우 로드가 100이 넘어가게 된다.

로드가 100이 넘는게 무엇인가요 ?

부하를 말합니다. 100이 넘어가는 과부하가 걸린다는 말이죠. 엠파스 로봇이 무자비하게 접속을 시도해서 Python cgi인 모인모인이 실행되는 바람에, 과부하가 걸리게 된다는 뜻입니다. 프로그램 하나 실행시키면 로드 1정도 먹는다고 하면... 부하가 100정도가 되면, 그 컴으로 접속이 거의 마비됩니다. 먹통이 되죠.

robots.txt 안 지키는 녀석들 막을 기법이 없을까요? 원천적으로 차단하진 못하더라도 알려진 놈들만이라도 차단할 수 있으면 좋을텐데요. 로봇 이름이 알려져있으면 그걸로 막을 순 없으련지. --희상

User-Agent를 봐서 막을 수 있더라도 어차피 나쁜 놈들은 User-Agent도 속이지 않을까요. --서상현

모든 링크를 <a href="javascript:document.location.href='http://blah/blah';">This is Blah</a> 처럼 바꿔서, 웹로봇이 다른 페이지에 대해 크롤링을 하지 못하도록 막는 방법도 있을 수 있겠네요. --나를잊어줘

extracted from 사랑방

네이버에서 http://no-smok.net/nsmk/_b9_dd_c1_f6_c0_c7_c1_a6_bf_d5_b9_f8_bf_aa_c5_e4_b7_d0 로 들어왔습니다. 로봇이 긁는 것 같군요. 로봇을 막는 robots.txt 같은 파일을 노스모크에 넣지 않았나요? 넣었다면 네이버에 항의를 해야 하지 않을까 합니다. --씨엔

네이버 로봇은 로봇 규약을 잘 지키지 않는 것 같습니다. 제 개인위키도 당했습니다. -_-; 지워달라고 메일 보냈는데 응답이 없군요. --Sequoia

전 개인홈페이지의 '로그분석페이지'를 당했습니다. 호스팅 주인장께 말씀드려서 암호를 걸었습니다. 기분이 많이 나쁘더라구요. -- litconan

전.. 친구들의 개인정보가 좌아악 담겨있는 페이지를-_-; --최종욱

http://help.naver.com/ 에 항의를 했습니다. 다른 분들도 같이 하셨으면 좋겠습니다.--씨엔

네이버팀이 사용자의 요구를 수용하였다면 진작 포털1위로 발돋움 할 수 있었을 겁니다. 해보지도 않고 포기하는 것은 바보같은 짓이지만, 네이버에게 너무 많이 당했기에... 흑흑 -- litconan

ip를 블럭해버립시다. -- DaNew

자동응답같은 메시지를 받았습니다. 어떻게 될 것인지 궁금합니다. --씨엔

경험상 그 다음은 없을 겁니다. 자동응답만 열 몇개를 받았는데 관련된 답장은 하나도 안 주더군요. -- litconan

자세한 url을 알려달라는 답장이 왔습니다. 뭘 알려달라는 건지 모르겠지만 네이버에서 검색되는 노스모크 컨텐츠들을 모아서 내일 보내보겠습니다. 지금은 피곤하네요. --씨엔

robots.txt는 초창기부터 해놓았지만, 업체들이 잘 안 지키는 것 같네요. ip는 알려진 것이 있나요?(헌데 사후약방문일 것 같기도 하고) --희상

네이버에서 일처리를 얼마나 빨리 할 것인지와 관련해 [http]

시한폭탄이란 일이 있었습니다. 일은 비교적 빨리 해결되었지만, 네이버직원에게 직접 메일을 보내서 일처리를 해버렸군요. -- litconan

컴퓨터분류