⚡️ 16. Was die robots.txt macht
Die berühmte robots.txt Datei - Erklärung
Die robots.txt
-Datei ist eine einfache Textdatei, die von Websites verwendet wird, um Web-Crawlern oder Suchmaschinen-Robotern Anweisungen darüber zu geben, welche Seiten oder Dateien auf ihrer Website gecrawlt oder indexiert werden dürfen und welche nicht. Diese Datei spielt eine wichtige Rolle im Bereich der Suchmaschinenoptimierung (SEO) und der Website-Verwaltung.
Wichtige Merkmale der robots.txt
- Speicherort: Die
robots.txt
-Datei muss im Stammverzeichnis der Website gespeichert werden, also unterwww.deinewebsite.de/robots.txt
. Es wird empfohlen, die sitemap.xml im gleichen Verzeichnis abzulegen. - Syntax: Die Datei hat eine einfache Syntax und besteht aus einer Reihe von Regeln, die von Web-Crawlern befolgt werden sollen.
Grundlegende Struktur einer robots.txt
Die robots.txt
-Datei besteht aus einer oder mehreren Gruppen von Regeln. Jede Gruppe beginnt mit einer User-agent
-Zeile und wird durch eine oder mehrere Disallow
- oder Allow
-Zeilen gefolgt.
Beispiel einer einfachen robots.txt
User-agent: *
Disallow: /private/
Disallow: /tmp/
Allow: /public/
- User-agent: Gibt an, für welchen Web-Crawler die nachfolgenden Regeln gelten. Das Sternchen
*
bedeutet, dass die Regeln für alle Crawler gelten. - Disallow: Gibt an, welche Verzeichnisse oder Dateien, die auf dem Server gespeichert sind nicht gecrawlt werden dürfen.
- Allow: Gibt an, welche Verzeichnisse oder Dateien trotz eines Disallow-Befehls gecrawlt werden dürfen (wichtig bei nutzereigenen Dateien in einem ansonsten gesperrten Verzeichnis).
Beispiele und Anwendungen
- Alle Crawler blockieren:
User-agent: * Disallow: /
Dies verhindert, dass alle Web-Crawler irgendeinen Teil der Website indexieren.
- Nur bestimmte Bereiche blockieren:
User-agent: * Disallow: /admin/ Disallow: /private/
- Bestimmte Crawler blockieren:
User-agent: Googlebot Disallow: /no-google/ User-agent: Bingbot Disallow: /no-bing/
- Spezifische Datei zulassen:
User-agent: * Disallow: /files/ Allow: /files/special-file.txt
Wichtige Überlegungen
- robots.txt ist nur eine Richtlinie: Suchmaschinen sind nicht verpflichtet, die Anweisungen in der
robots.txt
zu befolgen, und einige Crawler ignorieren sie vollständig. - Sicherheitsaspekte: Die
robots.txt
-Datei sollte nicht zur Sicherheitssperre vertraulicher Informationen verwendet werden, da sie öffentlich zugänglich ist und von jedem eingesehen werden kann. - Suchmaschinen-Indexierung: Während
robots.txt
Anweisungen gibt, ob Seiten gecrawlt werden dürfen, beeinflusst sie nicht direkt die Indexierung bereits gecrawlter Seiten. Dafür sind HTML-Tags wie<meta name="robots" content="noindex">
erforderlich.
Fazit
Die robots.txt
-Datei ist ein nützliches Werkzeug zur Steuerung, wie Web-Crawler mit deiner Website interagieren. Sie hilft dabei, die Last auf dem zumeist in PHP konfigurierten Server zu reduzieren, indem sie verhindert, dass nicht relevante oder private Bereiche der Website gecrawlt werden. Trotz ihrer Einfachheit ist sie ein wichtiger Bestandteil der Website-Optimierung und Verwaltung.