간혹 웹사이트 검색 유입량에 문제가 생긴 고객들을 만나볼 때가 있는데, 이분들이 궁금한 것은 마케팅 활동은 예전과 그대로인데 어떻게 다음과 같이 검색유입량 감소가 있을 수 있는지 궁금해하는 것입니다.
이런 경우, 원인은 검색엔진의 알로리즘 업데이트 그리고 이로 인한 기존 웹페이지들의 랭킹 하락 또는 웹페이지의 로딩 속도 등 여러가지 문제점이 원인이 될 수 있습니다.
하지만 제일 먼저 간과하지 말아야 할 것은 여러분의 robots.txt 파일이 제대로 설정이 되어있느냐입니다.
간혹 규모가 큰 웹사이트의 경우 웹사이트 개발팀에 의해서 본의아니게 robots.txt 파일설정이 올바르게 되지 있지 않은 경우도 있는데 위의 사진에 나온 웹사이트의 경우에도 페이지의 로딩 요소 중 상당수가 크롤링 되지 않게 설정되어 있어서 문제점이 있었던 것을 확인할 수 있었습니다.
Robots.txt 파일이란?
Robots.txt는 웹사이트에서 검색엔진의 크롤링 로봇들이 어떤 페이지 또는 요소들을 수집하고 검색에 띄워주는가에 대해 명령을 내리는 파일입니다. 이 때 원하는 검색엔진을 특정해 명령을 내리거나 전체 적용을 통해 명령을 내릴 수도 있습니다.
언제 Robots.txt 파일에 주의를 기울여야 할까
만일 여러분의 웹사이트의 검색 유입량이 예전에 비해서 적어졌다면 먼저 살펴볼만한 것은 robots.txt 파일과 변화를 준 활동입니다.
예를 들어, 웹사이트의 보안 강화를 위해 http에서 https로 변경했다면 robots.txt파일에도 사이트맵의 주소가 https로 변경되어 있는지 확인하는 것이 중요합니다.
그렇지 않다면, 기존 검색엔진 크로링 로봇들은 여러분이 특정한 대로 http의 경로로 페이지들을 크롤링하고 검색엔진에 띄우려고 할 것입니다.
robots.txt 파일에 있는 설명대로 구글이나 여타 검색 엔진들이 작동을 하기 때문에, 파일에 있는 명령어가 여러분이 의도했던 것과 다르다면, 여러분의 웹페이지들이 제대로 읽혀지지 않는 등 문제를 일으키게 됩니다.
기본적인 이해가 필요한 과정
그렇다면 robots.txt파일에서 여러분이 이해해야 할 필수적인 요소는 어떤 것이 있을까요?
여러분이 기본적으로 이해하셔야 할 요소는 다음과 같습니다.
User-agent: 검색엔진의 이름을 특정하는 항목
Disallow: 검색엔진 로봇들이 크롤링하지 않았으면 하는 웹사이트 주소를 표시
User agent와 Disallow의 예시
User agent의 대표적인 종류는 아래와 같습니다.
Googlebot (구글)
Bingbot (빙)
Slurp (야후)
Baiduspider (바이두)
Yandexbot (얀덱스)
Yeti (네이버)
여러분은 이런 User agent 이름 중 하나를 택해서 기입하거나 또는 모든 검색엔진 로봇을 타겟으로 할 때에 * 표시를 사용하면 됩니다.
Disallow의 항목에는 여러분이 접근을 제한하고 싶은 주소를 적는 것인데, /을 적으신다면 여러분의 홈페이지 메인URL을 포함한 전체 페이지를 검색엔진이 크롤링하지 못하게 명령을 내리게 됩니다.
좀 더 살펴볼 예시
User-agent: *
Disallow: /
위 예시는 모든 검색엔진 로봇들이 여러분 웹사이트의 모든 페이지를 크롤링하지 못하도록 하는 명령입니다.
반대로 아래의 예시에서는 Disallow의 항목으로 빈칸을 만들어놔 모든 검색엔진 로봇들이 여러분 웹사이트의 모든 페이지를 크롤링하도록 허용하고 있습니다.
User-agent: *
Disallow:
추가적으로 알면 좋은 것들
1.http를 https로 리디렉션 했을 경우
여러분은 robots.txt 파일의 sitemap 정보에 아래처럼 예전의 http 대신 https가 있는지 확인해봐야 합니다.
Sitemap: https://www.example.com
만일 현재 웹사이트의 웹페이지가 https로 로딩이 되고 있는데 http가 robots.txt에 나타나고 있다면, 제대로 크롤링이 안되는 문제가 발생하게 됩니다.
2. CSS나 JS 파일을 robots.txt 파일에서 차단했는지 확인
웹사이트가 특히 커스텀 방식으로 제작된 경우, 간혹 CSS나 JS 스크립트 파일을 robots.txt파일에서 차단하고 있는 경우가 있는데 이는 검색엔진에서 웹사이트를 충분히 이해하지 못한다고 생각하게 만들 수 있습니다. 이는 검색엔진 랭킹에서 내려가는 결과를 만들게 되며, 위의 예시로 든 웹사이트도 해당 문제점이 발견된 케이스입니다.
결론
여러분의 마케팅 활동이 여느때와 다름이 없었는데 갑자기 검색 유입량이 현저하게 줄어든다면 검색엔진의 알고리즘 변화 그리고 그 알고리즘에 여러분 웹사이트의 문제점이 새로 파악됐을 가능성이 높습니다.
웹사이트를 개발자 혹은 팀이 맡아서 운영하고 있다면, 먼저 robots.txt 파일이 어떻게 관리되고 있는지 확인하는 것이 처음으로 고려해야 할 사항입니다. 개발자들이라고 해서 검색엔진 또 robots.txt 파일에 대해서 모두 제대로 알고 있는 것은 아닙니다.
해당 파일에서 어떤 것이 특별히 설정되어 있는지 살펴보고 그 이유를 웹사이트 관리/개발 팀을 통해 알아보고 아무도 이유를 모른다면 오히려 설정되어 있는지 않는게 검색엔진 트랙픽에 더 이롭습니다.