1 Min

Die berühmte robots.txt Datei - Erklärung

Die robots.txt-Datei ist eine einfache Textdatei, die von Websites verwendet wird, um Web-Crawlern oder Suchmaschinen-Robotern Anweisungen darüber zu geben, welche Seiten oder Dateien auf ihrer Website gecrawlt oder indexiert werden dürfen und welche nicht. Diese Datei spielt eine wichtige Rolle im Bereich der Suchmaschinenoptimierung (SEO) und der Website-Verwaltung.

Wichtige Merkmale der robots.txt

  1. Speicherort: Die robots.txt-Datei muss im Stammverzeichnis der Website gespeichert werden, also unter www.deinewebsite.de/robots.txt. Es wird empfohlen, die sitemap.xml im gleichen Verzeichnis abzulegen.
  2. Syntax: Die Datei hat eine einfache Syntax und besteht aus einer Reihe von Regeln, die von Web-Crawlern befolgt werden sollen.

Grundlegende Struktur einer robots.txt

Die robots.txt-Datei besteht aus einer oder mehreren Gruppen von Regeln. Jede Gruppe beginnt mit einer User-agent-Zeile und wird durch eine oder mehrere Disallow- oder Allow-Zeilen gefolgt.

Beispiel einer einfachen robots.txt

User-agent: *
Disallow: /private/
Disallow: /tmp/
Allow: /public/
  • User-agent: Gibt an, für welchen Web-Crawler die nachfolgenden Regeln gelten. Das Sternchen * bedeutet, dass die Regeln für alle Crawler gelten.
  • Disallow: Gibt an, welche Verzeichnisse oder Dateien, die auf dem Server gespeichert sind nicht gecrawlt werden dürfen.
  • Allow: Gibt an, welche Verzeichnisse oder Dateien trotz eines Disallow-Befehls gecrawlt werden dürfen (wichtig bei nutzereigenen Dateien in einem ansonsten gesperrten Verzeichnis).

Beispiele und Anwendungen

  1. Alle Crawler blockieren:
    User-agent: *
    Disallow: /
    

    Dies verhindert, dass alle Web-Crawler irgendeinen Teil der Website indexieren.

  2. Nur bestimmte Bereiche blockieren:
    User-agent: *
    Disallow: /admin/
    Disallow: /private/
    
  3. Bestimmte Crawler blockieren:
    User-agent: Googlebot
    Disallow: /no-google/
       
    User-agent: Bingbot
    Disallow: /no-bing/
    
  4. Spezifische Datei zulassen:
    User-agent: *
    Disallow: /files/
    Allow: /files/special-file.txt
    

Wichtige Überlegungen

  • robots.txt ist nur eine Richtlinie: Suchmaschinen sind nicht verpflichtet, die Anweisungen in der robots.txt zu befolgen, und einige Crawler ignorieren sie vollständig.
  • Sicherheitsaspekte: Die robots.txt-Datei sollte nicht zur Sicherheitssperre vertraulicher Informationen verwendet werden, da sie öffentlich zugänglich ist und von jedem eingesehen werden kann.
  • Suchmaschinen-Indexierung: Während robots.txt Anweisungen gibt, ob Seiten gecrawlt werden dürfen, beeinflusst sie nicht direkt die Indexierung bereits gecrawlter Seiten. Dafür sind HTML-Tags wie <meta name="robots" content="noindex"> erforderlich.

Fazit

Die robots.txt-Datei ist ein nützliches Werkzeug zur Steuerung, wie Web-Crawler mit deiner Website interagieren. Sie hilft dabei, die Last auf dem zumeist in PHP konfigurierten Server zu reduzieren, indem sie verhindert, dass nicht relevante oder private Bereiche der Website gecrawlt werden. Trotz ihrer Einfachheit ist sie ein wichtiger Bestandteil der Website-Optimierung und Verwaltung.

Updated: