robots.txt 파일이란?

2023. 11. 8. 16:40· CS 지식
목차
  1. 정의
  2. 왜 사용하는가?
  3. 구조
  4. 내 생각
반응형

(https://media.geeksforgeeks.org/wp-content/uploads/gfg-24.png)

이전에 Route53 에서 TXT 레코드를 추가하고 robots.txt 파일의 내용을 집어 넣었던 기억이 있다.

키워드만 정리해 놓았었는데, 뭔지 궁금해서 정리해본다.

 

정의

"robots.txt" 파일은 웹사이트 소유자가 검색 엔진 로봇(또는 크롤러)에게 자신의 웹사이트의 어떤 부분을 크롤링하고 색인화할 수 있는지 제어하기 위한 표준 프로토콜입니다. 이 파일은 웹사이트의 루트 디렉터리에 위치하며, 검색 엔진 크롤러가 웹사이트를 방문할 때 이 파일을 확인하고 그에 따라 행동합니다.

 

왜 사용하는가?

  1. 크롤링 대상 제어 :
    • 웹 사이트 소유자는 어떤 검색 엔진 크롤러가 그들의 웹 사이트를 크롤링할 수 있는지 제어하려는 경우 사용한다.
    • 이를 통해 웹 페이지의 특정 부분을 숨기거나 숨기지 않고 검색 엔진에서 색인화할 수 있다.
  2. 검색 엔진 최적화 (SEO) :
    • 웹 사이트에는 일부 비공개 정보가 포함된 디렉터리나 파일이 있을 수 있다.
    • 이러한 비공개 정보에 대한 액세스를 검색 엔진 크롤러로부터 제한할 수 있다.
  3. 크롤러 부하 관리 :
    • Crawl-Delay 지시어를 이용해 크롤링 속도를 조절해 웹 서버의 부하를 분산시킬 수 있다.
  4. 테스트 및 개발 환경 :
    • 웹 사이트의 테스트 또는 개발 환경에서 사용하여 검색 엔진 크롤러가 이러한 환경을 크롤링하지 않도록 할 수 있다.
  5. 비공개 정보 보호 :
    • 민감한 데이터가 포함된 페이지 또는 디렉터리를 숨기는 경우 액세스를 거부할 수 있다.

 

구조

User-agent: Googlebot
Disallow: /private/
Allow: /public/
Crawl-Delay: 10

User-agent: Bingbot
Disallow: /admin/

 

  1. User-agent:
    • 크롤러 또는 로봇의 이름 또는 식별자를 나타낸다.
    • 여기에 나열된 크롤러들에 대한 규칙을 정의할 수 있다. 예를 들어 User-agent: Googlebot 은 Google 검색 엔진 크롤러에 대한 규칙을 지정하는 것을 의미한다.
    • 애스터리스크로 모든 agent에 대해 규칙을 설정할 수 있다.
  2. Disallow :
    • 크롤러에게 특정 디렉터리 또는 파일에 대한 액세스를 거부하는 규칙을 정의한다.
    • /private/는 "private" 디렉터리를 나타내고 크롤러는 해당 디렉터리에 접근할 수 없다.
  3. Allow :
    • 크롤러에게 Disallow 규칙에 예외를 추가하는 데 사용된다. Disallow보다 Allow가 우선시되며, 특정 경로를 크롤러에게 허용할 때 유용하다.
  4. Crawl-Delay :
    • 크롤링 사이의 딜레이를 설정한다.
    • 이를 통해 웹 서버에 과도한 부하를 주지 않고 크롤링 속도를 제어할 수 있다. 값은 초 단위로 지정된다.

 

내 생각

음 왜 사용하는 지 정확히 몰랐었는데 결국 크롤러에 대한 내 웹사이트의 제어를 하기 위해 사용하는 것같다.

[참조] :
ChatGPT
https://www.vdigitalservices.com/how-to-use-robots-txt-to-allow-or-disallow-everything/

반응형
저작자표시 (새창열림)

'CS 지식' 카테고리의 다른 글

사일로(silo)란?  (0) 2023.11.13
DNS 플러쉬(Flush)란?  (0) 2023.11.09
Kafka란?  (2) 2023.09.30
서킷 브레이커(Circuit Breaker)란?  (0) 2023.09.25
컴퓨터 구조란?  (0) 2023.08.09
  1. 정의
  2. 왜 사용하는가?
  3. 구조
  4. 내 생각
'CS 지식' 카테고리의 다른 글
  • 사일로(silo)란?
  • DNS 플러쉬(Flush)란?
  • Kafka란?
  • 서킷 브레이커(Circuit Breaker)란?
Nowon9159
Nowon9159
Nowon의 블로그Nowon9159 님의 블로그입니다.
반응형
Nowon9159
Nowon의 블로그
Nowon9159
전체
오늘
어제
  • DevOps Engineer (176)
    • DevOps (7)
    • 서버 관리 (4)
      • 운영체제 (3)
      • 터미널 (0)
    • 프로그래밍 (13)
      • Python (11)
      • JavaScript (2)
      • Vue.js (0)
    • Cloud (6)
      • AWS (6)
      • NAVER Cloud (0)
    • Network (7)
      • Service Mesh (1)
    • CICD (0)
      • Git (0)
      • Jenkins (0)
      • Ansible (0)
    • IaC (0)
      • Terraform (0)
      • Helm (0)
    • Containers (3)
      • Docker (1)
      • Kubernetes (2)
    • 모니터링 (0)
      • 인프라 모니터링 (0)
      • 어플리케이션 모니터링 (0)
      • 로그 관리 (0)
    • DB (0)
      • MongoDB (0)
    • 자격증 (54)
      • 정보처리기사 (0)
      • AWS SAA (26)
      • AWS SAP (22)
      • AWS DOP (0)
      • Kubernetes CKA (4)
      • AWS SOA (2)
    • CS 지식 (47)
    • 책, 강의 (5)
    • 스터디 (11)
      • k8sd (0)
      • Istio Hands-on Study (11)
    • 기타 (14)
      • Problem Solve (4)
      • 사담 (4)
      • 토이프로젝트 (5)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

  • 블로거 소개 글

인기 글

태그

  • DevOps
  • 클라우드넷
  • istio
  • 쿠버네티스 인 액션
  • 가시다
  • 코딩
  • Kubernetes
  • 오블완
  • 파이썬
  • 개발자
  • 자격증
  • 부트캠프
  • 토이프로젝트
  • cloud@net
  • DevOps 엔지니어
  • github
  • gasida
  • familiar
  • 문제 풀이
  • SAA-C03
  • SAP-C02
  • 스터디
  • AWS
  • 티스토리챌린지
  • CKA
  • 책
  • PYTHON
  • 이스티오
  • k8s
  • Practice

최근 댓글

최근 글

글 보관함

hELLO · Designed By 정상우.v4.2.2
Nowon9159
robots.txt 파일이란?
상단으로

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.