노스모크와검색엔진

노스모크의 컨텐츠 중 아무거나 선택해서 구글 같은데서 검색해 보면 노스모크의 컨텐츠는 검색되지 않는다. 노스모크뿐만 아니라 위키 사이트들이 대체로 비슷하다. 위키위키는 인터넷에서 외토리라는 생각이 든다. 최소한 검색엔진의 로봇에게는 발견되지 않는 외진 곳이다. 왜 로봇에게서 배제되는 건지 혹시 아시는 분 계시면 답변 부탁드립니다. -- kcjun

이상하네요. 모인모인 1.0과 모인모인 1.1을 쓰고 있는 GnomeKorea과 KLE같은 경우는 로봇때문에 골치가 다 아펐답니다. 평균 로드가 가끔 100이 되어 접속이 불가능 해 지는 empas_robot이라는 놈만 빼고는 다른 로봇은 대체로 양호한 것 같더군요. Google에서 위키라고 검색어를 치면 GnomeKorea가 가장 처음에 뜨지요. -- 고무신

robots.txt를 써서 몰아내기 때문입니다. empas_robot과 naverbot 등의 국산 로봇들이 좀 심하죠.

-- 까리용

제가 제기한 문제는 로봇이 와서 생기는 문제보다는..로봇이 안와서 생기는 문제입니다. 로봇이 많이 위키의 컨텐츠를 긁어가야 검색엔진에서 위키의 컨텐츠와 사이트가 나오고, 그걸 본 사람들이 위키사이트에 접속하고, 그 사람들이 위키에 컨텐츠를 올려서 위키가 풍성해지는 사이클이 이루어진다는 문제입니다. 로드가 많이 걸리는 것을 (기술적으로?) 해결해서 로봇이 오게 만들어야지 로드 때문에 로봇배제정책을 쓴다면 결국 위키는 소수자들의 커뮤니티로 머무를 것입니다. 왜냐하면 위키는 쓰기(use & write) 편해서 컨텐츠의 유통과 정리에 매우 유용한데 비해 너무도 알려지지 않고 있다는 단점을 갖고 있습니다. 검색엔진은 돈 안드는 홍보수단인데 이것을 소홀히 생각하고 있지 않나 하는 생각이 듭니다. 로드를 줄이면서 로봇들이 컨텐츠(전체는 아니고 일부죠)를 긁어갈 수 있게 하는 방법은 없습니까? --kcjun

노스모크는 특별한 홍보를 할 필요를 자체적으로 느끼고 있지 않습니다(see also 필요한만큼만). 노스모크는 어떤 영리단체나 봉사단체가 아닙니다. 굳이 택한다면 확장 대신 확산을 택하겠습니다. --김창준

확산을 택한다고 해도 검색엔진에 노스모크의 컨텐츠가 인덱싱되어 나오는게 좋지 않을까요? 예를 들어 도상학, 십우도 같은 단어를 구글에서 검색해 보면 노스모크 링크는 안나오거나, 나오더라도 맨 마지막에 나오는군요. 검색엔진에 나오게 하는 방법은 정녕 없는 것입니까? - kcjun

Google에서 잡종적지식을 찾아보니 노스모크가 나오긴 하네요. 다른 페이지가 나오지 않는 것은 고아페이지라서 그럴 가능성도 있을 것 같군요. TitleIndex부분만 robot을 막지 않아도 효과를 볼 수 있을 것 같습니다만. -- 고무신

구글봇처럼 로드를 고려해서 긁어가는 에이전트에겐 허용하는 것도 괜찮지 않을까 싶습니다. --DaNew

(내생각) 노스모크가 여러 메이져 검색엔진들과 웹아카이브 엔진들로부터 격리되어 있다는 사실은 충격이다. 이것은 마치 다음카페의 모든 카페게시판과 자료실이 고인물처럼 다음넷 자체 데이타베이스와 검색엔진에 의해서만 힘겹게 공유(?)되고 있는 현실과 비슷하다. 노스모크 서버의 속도 저하 문제라면, RecentPages와 finder 등과 같이 시스템에 부하를 심화시키는 코드가 실행되는 것만 막으면 되지 않을까? robot.txt가 너무 뻣뻣(^^)하다고나 할까. 이런 폐쇄성(혹은 절약성)도 노스모크문화의 일부라고 말한다면 어쩔 도리가 없지만.. ps:개인피씨 한 대만으로도 노스모크 전체를 인터넷 검색엔진에 올려놓는 건 어렵지 않다. more over, 만일 이런 편법을 이용한다면, no-smok 측에서 검색엔진측에 no-smok 관련 페이지들을 삭제해 달라고 요청하더라도 받아들여지지 않을 수도 있다. -_-;; (내생각이었다)

구글에서는 엄청 검색됩니다. 가끔 내 이름으로 검색해보는데 결코 방문자가 적지 않은 개인 홈페이지가 있음에도 노스모크 페이지들이 상위에 랭크됩니다. 외부에서 노스모크에 접근하는 것이 위키이기 때문이 아니라 개별 페이지의 정보때문인 것이 더 나을 수도 있습니다. 위키는 기본적으로 진입장벽이 있구요. 어느정도는 그게 필요하기도 하니까요. -- 윤구현

(내생각) 정리하면, 제가 조사한 바에 의하면, 검색엔진상에서 노스모크의 객관적인 인지도는 페이지수와 참여자수, 그리고 방문빈도와 역사에 비해서 상당히 낮은 편에 속합니다. 물론 이것이 실제적인 인지도와 부합한다고 못박을 수는 없지만, 비교적 객관적인 조사라고 말씀드리고 싶습니다. (근거는 밝히지 않겠습니다-익명이니깐) 그런데도 불구하고 몇몇 노스모크 페이지 네임을 검색엔진에 입력하면 비교적 상위에 랭크되는 것을 발견할 수 있는데, 그 이유는 구글을 포함한 몇몇 대형 검색엔진이 위키 시스템과 거기에서 파생된 도메인 네임들에 대해 높은 점수를 주고 있기 때문입니다. 이것은, 낮은인지도+높은검색우선순위를 명확히 설명해줍니다. 게다가 대형 검색엔진들(숫자는 밝히지 않겠습니다-익명이니깐)중 그 어느곳도 노스모크의 문서를 단 한 페이지도 캐쉬하고 있지 않습니다. (사적으로 캐쉬하고 있는 몇몇 사이트는 발견할 수 있습니다. = 이 사이트들이 없었다면, 노스모크 페이지 네임으로도 노스모크는 발견될 수 없었을 것입니다.) 종합하면, 노스모크라는 사이트가 주목을 끌기 시작한 이후로 매이저 검색엔진들 중 단 하나도 robot.txt 때문에 노스모크에 접근할 수 없었다는 것입니다. 그 결과로, 노스모크내의 문서내용으로는 결코 노스모크 페이지를 검색할 수 없다는 것입니다. 끝. (내생각이었다.)

검색엔진이 높은 적합도를 받는 페이지는 제목태그에 검색어가 포함된 경우와 url에 검색어가 포함된 경우 입니다. 예전에는 meta tagd의 keyword값도 중요한 고려 대상이었는데 스팸페이지등에서 마구잡이로 키워드를 넣는 바람에 거의 쓸모가 없어져 요즘 검색엔진들은 이것은 그다지 고려하지 않습니다. 모인모인은 한글의 경우 디코딩된 상태로 url에 들어가기 때문에 검색엔진에서 큰 점수를 못얻는것일 거라고 예상됩니다만.. 노스모크 알만한 사람은 노스모크에서 찾을 수 있다고 생각되는건 바로 여기 와서 찾을 것 같은데요?

--nominam

검색이 안되나요? 저는 처음 노스모크에 오게된 경로도 네이버에서 '스타벅스'를 쳤다가 이곳에 오게된 것이고, 요즘에도 이것저것 찾다보면 자주 눈에 띄던데. -- kidfriend

확실히 특정 검색엔진에서만 검색되는 듯 합니다. 이런 공동체가 있다는 사실을 최근에 알게 되었다는 사실에 경악을 금치 못하는 정도입니다. 하지만 그 때문에 노스모크가 더 가치있게 느껴집니다. 노스모크의 기본 정신이 닫혀있지 않으므로 검색엔진을 통한 다분히 의도적인 문턱낮추기는 불필요한 것이 아닌가 하는 생각이 듭니다. -- 헌터D

서버에 부하가 많이 걸리기 때문에 검색 로봇을 차단하는 것이 아닌가요?

로봇이 그냥 긁어가면 부하가 많이 걸리니까, 데이터 부분만 로봇이 긁어가게 할수는 없습니까? 데이터 부분은 텍스트 뿐이니, 부하가 적게 걸릴것 같습니다만... - 까마귀

단순히 텍스트 형태지만, 그것을 제공하기 위한 과정이 수반되어야 합니다. 검색엔진의 로봇이 긁어가는 속도라고 하는게, 그냥 사람들이 접근해서, 한페이지씩 보는것과는 비교할 수 없는 속도가 되기 때문에, 긁어가는 자료의 크기뿐 아니라, 긁어가는 속도도 큰 문제가 됩니다. -- dyaus

노스모크분류 컴퓨터분류

노스모크와검색엔진

목차

1. 노스모크와 검색엔진 ¶

2. 노스모크와 웹검색로봇 ¶