User-agent: Googlebot // 구글봇에 대해서
Disallow: /nogooglebot/ // /nogooglebot/ 부터 크롤링 금지
User-agent: * // 모든 봇은
Allow: / // 모든 페이지 크롤링 가능
Sitemap: https://www.example.com/sitemap.xml
특이 모양
Allow: /$ // 루트만 허용한다.
Disallow: /aaa*/ // /aaab/, /aaa-b/, /aaabcde/ 등으로 aaa 로 직하는 경로를 거부한다
주의
구글의 경우 robots.txt로 막혀서 URL은 수집될 수 있음!
=>
경고: robots.txt 파일을 Google 검색결과에서 웹페이지를 숨기는 수단으로 사용하지 마세요.
다른 페이지 내의 설명 텍스트에서 내 페이지를 가리키는 경우 Google은 페이지를 방문하지 않고도 URL의 색인을 생성할 수 있습니다. 검색결과에 페이지가 표시되지 않도록 하려면 비밀번호 보호나 noindex 등 다른 방법을 사용하세요.