검색엔진 로봇의 크롤링 제어 - robots.txt


robots.txt

기본 모양

User-agent: Googlebot   // 구글봇에 대해서
Disallow: /nogooglebot/   // /nogooglebot/ 부터 크롤링 금지

User-agent: *                  // 모든 봇은
Allow: /                           //  모든 페이지 크롤링 가능

Sitemap: https://www.example.com/sitemap.xml

특이 모양

Allow: /$      // 루트만 허용한다.
Disallow: /aaa*/     //  /aaab/, /aaa-b/, /aaabcde/ 등으로 aaa 로 직하는 경로를 거부한다



주의

구글의 경우 robots.txt로 막혀서 URL은 수집될 수 있음!
=>
경고: robots.txt 파일을 Google 검색결과에서 웹페이지를 숨기는 수단으로 사용하지 마세요.

다른 페이지 내의 설명 텍스트에서 내 페이지를 가리키는 경우 Google은 페이지를 방문하지 않고도 URL의 색인을 생성할 수 있습니다. 검색결과에 페이지가 표시되지 않도록 하려면 비밀번호 보호나 noindex 등 다른 방법을 사용하세요.

댓글
  • No Nickname
    No Comment
  • 권한이 없습니다.
    {{m_row.m_nick}}
    -
목록형 📅 달력형