robot.txt 사용방법

 

robot.txt는 웹사이트 루트 디렉토리에 위치한 텍스트 파일로, 검색엔진 크롤러에게 사이트 내 어떤 페이지를 크롤링해도 되고 어떤 페이지는 크롤링하지 말아야 하는지 알려주는 역할을 합니다.

이를 통해 웹사이트 관리자는 크롤러의 접근을 제어할 수 있습니다.

 

<robot.txt 사용방법>

1. Allow: 크롤링을 허용할 디렉토리 또는 페이지를 지정합니다.

– 예) Allow: /public/

2. Disallow: 크롤링을 차단할 디렉토리 또는 페이지를 지정합니다.

– 예) Disallow: /private/

3. User-agent: 어떤 크롤러에 적용할 규칙인지 명시합니다. 모든 크롤러에 적용할 경우 와일드카드(*)를 사용합니다.

– 예) User-agent: Googlebot

4. Sitemap: 사이트맵 파일의 위치를 알려줍니다.

– 예) Sitemap: https://example.com/sitemap.xml

 

 

================================================

robot.txt 파일 예시:

User-agent: *

Allow: /

Disallow: /private/

Disallow: /admin/

Sitemap: https://example.com/sitemap.xml

================================================

작성한 robot.txt 파일은 웹사이트의 루트 디렉토리에 업로드합니다. 예) https://example.com/robot.txt

 

<주의사항>

  • robot.txt는 권고사항일 뿐 크롤러가 반드시 준수해야 하는 것은 아닙니다. 악성 봇은 이를 무시할 수 있습니다.
  • robot.txt에 차단 설정하더라도 다른 페이지에서 링크가 걸려 있다면 크롤러가 해당 페이지에 접근할 수 있습니다.
  • 보안이 필요한 페이지는 인증 절차를 거치도록 하는 것이 바람직합니다.

 

<관련 사이트>

 

 

 

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다