Lexikon robots.txt

Definition robots.txt

Die robots.txt ist eine Textdatei auf einer Webseite, die von Webcrawlern oder Suchmaschinen-Robotern genutzt wird, um Anweisungen für das Crawlen und Indexieren von Inhalten auf der Webseite zu erhalten.

Sie ist eine wichtige Komponente im Bereich des Online-Marketings und der Suchmaschinenoptimierung (SEO). Die robots.txt ermöglicht Webseitenbetreibern die Kontrolle darüber, welche Teile ihrer Webseite von Suchmaschinen-Robotern durchsucht werden dürfen und welche nicht.

Inhaltsübersicht

Funktionen Robots.txt

1
Steuerung des Crawlings

Die robots.txt gibt Anweisungen, wer, welche Teile einer Webseite crawlen (nicht indexieren) darf und wer, welche nicht. Das ist vor allem für Suchmaschinen relevant, die sich an diese Regelungen halten. Die meisten Suchprogramme („Bots“) von Spam-Suchmaschinen tun das nicht.

2
Serverentlastung

Durch das Blockieren von Seiten(bereichen) für bestimmte Suchmaschinen kann die Serverbelastung reduziert werden.

3
XML-Sitemap

Man kann in der robots.txt Hinweise auf die XML-Sitemap geben, damit Suchmaschinen diese leichter finden können.

4
Vermeidung von Duplikatinhalten

Mit der robots.txt können Seiten oder Verzeichnisse ausgeschlossen werden, um doppelte Inhalte zu verhindern, die sich negativ auf das Suchmaschinenranking auswirken könnten. Das verhindert aber nicht zwingend deren Indexierung, was zu Problemen führen kann.

Aufbau Robots.txt

Die robots.txt wird im Stammverzeichnis der Webseite platziert und ist öffentlich aufrufbar, wenn vorhanden. Sie enthält Anweisungen für bestimmte User-Agents (Roboter), welche die Webseite crawlen. In diesem Beispiel dürfen alle User-Agents alle Seiten crawlen, außer der Seite(n) mit "/gesperrtes-verzeichnis/", die ausgeschlossen ist:

User-agent: *
Disallow: /gesperrtes-verzeichnis/
Allow: /erlaubtes-verzeichnis/
/files/dateien/bilder/lexikon/robots/robots-txt-screenshot.png
robots.txt von google.com

Allow oder Disallow können weggelassen werden, dann gelten die Standardregeln für die Webseite.

Fehlt Disallow, können Suchmaschinen die Seite durchsuchen, es sei denn, es gibt spezielle Allow-Regeln.

Fehlt Allow, wird der Zugriff zwar nicht ausdrücklich erlaubt, jedoch wird (abgesehen von vorhandenen Disallow-Anweisungen) in den meisten Fällen die gesamte Webseite standardmäßig gecrawlt.

Robots.txt Funktionsweise

Die robots.txt ist eine Textdatei, die auf einer Webseite platziert wird, um den Verhaltensweisen von Webcrawlern und Suchmaschinen-Robotern Anweisungen zu geben. Hier ist, wie die robots.txt funktioniert:

  • Identifizierung der robots.txt: Wenn ein Crawler auf eine Webseite trifft, sucht er nach der robots.txt-Datei im Wurzelverzeichnis der Domain. Die Datei wird standardmäßig als robots.txt bezeichnet.
  • Auslesen der Anweisungen: Sobald der Crawler die robots.txt gefunden hat, liest er die darin enthaltenen Anweisungen. Die Datei enthält Direktiven, die definieren, welche Teile der Webseite gecrawlt und indexiert werden dürfen und welche ausgeschlossen sind.
  • Verarbeitung der Anweisungen: Die robots.txt enthält Anweisungen für verschiedene User-Agents, die die Crawler repräsentieren, z.B. Googlebot für Google. Jede Anweisung gibt an, welche Bereiche der Webseite für einen bestimmten User-Agent zugänglich sind.
  • Umsetzung der Anweisungen: Crawler und Suchmaschinen-Roboter halten sich in der Regel an die Anweisungen in der robots.txt. Wenn eine Seite oder ein Verzeichnis für einen bestimmten User-Agent ausgeschlossen ist, wird der Crawler diese Bereiche nicht crawlen oder indexieren.

Problem Indexierung via robots.txt

Die robots.txt eignet sich nur suboptimal, um doppelte Inhalte (Duplicate Content) in Suchmaschinen zu vermeiden. Denn es verhindert nur, dass Suchmaschinen, die sich an die Anweisungen halten, die Inhalte dieser Seite(n) nicht indizieren dürfen. Die Seite an sich sowie verweisende Informationen anderer Seiten sind aber sehr wohl indizierbar. Dadurch hat man „blinde“ Seiten im Index, was eben suboptimal ist. Besser sind hier andere Lösungen wie meta robots noindex.

Hinweis von Google zur robots.txt und Indizierung
Hinweis von Google zur robots.txt und Indizierung
Indexiert, obwohl durch robots.txt-Datei blockiert
Indexiert, obwohl durch robots.txt-Datei blockiert
Warnung in der Google Search Console: robots.txt blockiert Indexierung bzw. Inhalt
Warnung in der Google Search Console: robots.txt blockiert Indexierung bzw. Inhalt

Vorteile Robtos.txt

  • Crawler-Kontrolle: Die robots.txt ermöglicht es Webseitenbetreibern, das Crawling von bestimmten Bereichen ihrer Webseite durch Suchmaschinen-Roboter zu steuern.

  • Ressourceneffizienz: Durch das Blockieren des Crawlings unerwünschter Seiten kann die Serverbelastung reduziert werden, da Ressourcen nicht für unwichtige Seiten verschwendet werden.

  • Schnelle Anpassungen: Durch das Aktualisieren der robots.txt können schnell Änderungen an den Crawling-Anweisungen vorgenommen werden, ohne den Quellcode der Webseite zu ändern.

Nachteile Robots.txt

  • Kein echter Schutz: Die robots.txt ist kein Sicherheitsmechanismus und kann nicht verhindern, dass unerwünschte Zugriffe auf geschützte Seiten erfolgen.

  • Nicht alle Crawler beachten sie: Einige Crawler ignorieren die robots.txt und crawlen dennoch Seiten, die ausgeschlossen sind.

  • Fehlkonfigurationen: Fehlerhafte Anweisungen in der robots.txt können dazu führen, dass wichtige Seiten nicht indexiert werden oder vertrauliche Seiten versehentlich öffentlich zugänglich sind.

  • Eingeschränkte Funktionalität: Die robots.txt bietet begrenzte Möglichkeiten zur Steuerung des Crawlings. Für detailliertere Anweisungen sind oft komplexere Maßnahmen erforderlich.

  • Missbrauch: Die robots.txt könnte potenziell von bösartigen Bots oder Scrapern genutzt werden, um Ressourcen zu erkunden oder unerwünschte Aktivitäten durchzuführen.

FAQ Häufige Fragen zu Robots.txt

Was ist Robots.txt?

Die robots.txt ist eine Textdatei auf einer Webseite, die Anweisungen für Suchmaschinen-Roboter enthält, welche Teile der Webseite gecrawlt und indexiert werden dürfen und welche nicht.

Was heißt allow und disallow in der Robots.txt-Datei?

In der robots.txt-Datei beziehen sich "Allow" und "Disallow" auf Anweisungen, die den Suchmaschinen-Robotern mitteilen, ob sie Zugriff ("Allow") oder keinen Zugriff ("Disallow") auf bestimmte Teile der Webseite haben.

Was meint "Crawl Delay 10" in der Robots.txt-Datei?

In der robots.txt-Datei bedeutet "Crawl Delay 10", dass Suchmaschinen-Roboter eine Verzögerung von 10 Sekunden zwischen den einzelnen Crawlvorgängen auf der Webseite einhalten sollten. Dies hilft, die Serverbelastung zu reduzieren und eine gleichmäßige Nutzung der Ressourcen sicherzustellen.

Wie kann man ChatGPT ausschließen in der robots.txt?

ChatGPT ist einer der Bots, welche die Angaben einer korrekten robots.txt respektieren. ChatGPT hat auch einen User-agent (GPTBot) für den eigenen Chat-Bot definiert.

Damit kann man ChatGPT von der eigenen Seite fernhalten, mit folgender Anweisung:

User-agent: GPTBot
Disallow: /

Quellen, weiterführende Links

Suche
insert coin
Katzen YouTube Thumbnail

Mit dem Aufruf des Videos erklären Sie sich einverstanden, dass Ihre Daten an YouTube übermittelt werden und Sie die Datenschutzerklärung akzeptieren.