robot.txt는 웹사이트 루트 디렉토리에 위치한 텍스트 파일로, 검색엔진 크롤러에게 사이트 내 어떤 페이지를 크롤링해도 되고 어떤 페이지는 크롤링하지 말아야 하는지 알려주는 역할을 합니다.
이를 통해 웹사이트 관리자는 크롤러의 접근을 제어할 수 있습니다.
<robot.txt 사용방법>
1. Allow: 크롤링을 허용할 디렉토리 또는 페이지를 지정합니다.
– 예) Allow: /public/
2. Disallow: 크롤링을 차단할 디렉토리 또는 페이지를 지정합니다.
– 예) Disallow: /private/
3. User-agent: 어떤 크롤러에 적용할 규칙인지 명시합니다. 모든 크롤러에 적용할 경우 와일드카드(*)를 사용합니다.
– 예) User-agent: Googlebot
4. Sitemap: 사이트맵 파일의 위치를 알려줍니다.
– 예) Sitemap: https://example.com/sitemap.xml
================================================
robot.txt 파일 예시:
User-agent: *
Allow: /
Disallow: /private/
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
================================================
작성한 robot.txt 파일은 웹사이트의 루트 디렉토리에 업로드합니다. 예) https://example.com/robot.txt
<주의사항>
- robot.txt는 권고사항일 뿐 크롤러가 반드시 준수해야 하는 것은 아닙니다. 악성 봇은 이를 무시할 수 있습니다.
- robot.txt에 차단 설정하더라도 다른 페이지에서 링크가 걸려 있다면 크롤러가 해당 페이지에 접근할 수 있습니다.
- 보안이 필요한 페이지는 인증 절차를 거치도록 하는 것이 바람직합니다.
<관련 사이트>