TIL

[TIL] 2022/08/09 회고록 robots.txt Sitemap.xml

youngble 2022. 8. 9. 22:24

너무 바빴다.. 진심 지난주 주말부터 요번주 주말까지 새벽까지 풀로 달렸다. 

스케쥴이 바쁜거였을까 타이트한 일정을 만들어서 바쁜거였을까 아직도 헷갈린다(이하생략...)

개인공부도 못하고 휴가계획도 제대로 못짜서 지금 상태는 멍하다.

 

요번주에 진행하면서 오 새로운거다! 좀더 보는 시야가 넓어졌다 라고 느낀점은 크롤링 관련인데, 직접적으로 내가 크롤링을 했다는게 아니라 robots.txt라는 것과 sitemap.xml이라는 것이였다.

robots.txt

SEO 부분 영역에서 구글이나 다른 검색엔진에서  웹사이트에 대한 검색엔진 로봇들의 접근을 조절하여 해당 서비스를 크롤링해서 해당 자료를 다른사람이 본다거나, 보면 안되는 라우팅 부분을 설정해줘서 이를 disallow 하는 부분이였다. 왜냐하면 크롤링 할경우 이미지, 동영상과 같은 미디어 파일이 검색 결과에 노출뿐만 아니라 개인 정보도 포함될수 있기 때문이다. robots.txt 파일을 설정하지 않으면 구글, 네이버 등 각종 검색엔진 로봇들이 웹사이트에서 찾을 수 있는 모든 정보를 크롤링하여 검색엔진 검색결과에 노출시킨다.

기존 리액트에 public폴더에 robots.txt 란게 있는데 한번도 사용한적도 없고 저건 뭐지 했었는데 요번에 알게 되었다!!@

요렇게 생긴아이

그전 프로젝트 작업에서 굳이 검색이나 크롤링에서 제외할것도 없었거니와 그걸 고려할 케이스가 없어서 몰랐던거 같다. (오히려 검색해서 잘나와야 좋으니깐!) 

어쨋든 어떤 라우팅 부분을 크롤링하여 검색결과에 뜬다거나 보여줘선 안되는 라우팅 주소이기때문에 설정해주는 것이다.!

robots.txt 지시어

user-agent: 규칙이 적용 되는 크롤러의 이름

disallow: 유저 에이전트의 디렉토리 또는 페이지 크롤링을 차단한다

allow: 유저 에이전트의 디렉토리 또는 페이지 크롤링을 허용한다. 구글봇에만 적용 가능하니 참고

sitemap: 웹사이트의 모든 리소스를 나열한 목록파일

크롤링 봇 이름: Googlebot (구글), Yeti (네이버), Bingbot (빙), Slurp (야후)

 

자세한 가이드는 구글 검색 하길 바란다 .

 

sitemap.xml

반대로 sitemap 을 적용함으로써  웹사이트 내 모든 페이지의 목록을 나열한 파일로 책의 목차와 같은 역할을 합니다. 사이트맵을 제출하면 일반적인 크롤링 과정에서 쉽게 발견되지 않는 웹페이지도 문제없이 크롤링되고 색인될 수 있게 해준다.

sitemap.xml도 robots.txt와 마찬가지로 파일을 생성했다고 해서 웹사이트 검색엔진최적화 점수를 높이는데 영향을 주는 것은 아니지만  검색 엔진 로봇의 일반적인 크롤링 과정에서 발견되지 않는 웹페이지에 대한 정보를 제공해주기 때문에 더 많은 웹페이지가 크롤링되고 색인될 수 있게 도와주므로, 넓은 의미에서 sitemap.xml을 설정하는 것은 검색엔진최적화에 긍정적인 영향을 끼친다고 한다.