robots.txt erklärt: Kontrolle darüber, was Suchmaschinen crawlen
Jazmie JamaludinStellen Sie sich vor, Sie betreiben ein belebtes Geschäft, und jeden Morgen kommt ein höflicher Besucher zur Haustür und fragt: "Durch welche Räume darf ich heute gehen?" Sie geben ihm eine kleine Notiz, die am Eingang hängt. Er liest sie, nickt und geht nur dorthin, wo Sie es ihm erlaubt haben. Diese kleine Notiz ist mehr oder weniger das, was eine robots.txt-Datei für Ihre Website ist. Sie begrüßt die automatisierten Besucher, die Suchmaschinen aussenden, und teilt ihnen stillschweigend mit, welche Teile Ihrer Website sie erkunden dürfen.
Es klingt bescheiden, und es ist nur eine einfache Textdatei, die im Stammverzeichnis Ihrer Domain liegt. Doch diese unscheinbare Datei hat die Macht, Suchmaschinen entweder dabei zu helfen, Ihre Website effizient zu verstehen, oder, wenn Sie es falsch machen, versehentlich große Teile Ihrer Website unsichtbar zu machen. In diesem Leitfaden werden wir aufschlüsseln, was robots.txt tatsächlich tut, was sie absolut nicht kann, welche Fehler Unternehmen stillschweigend Traffic kosten und wie man sie handhabt, ohne etwas zu beschädigen.
Was robots.txt tatsächlich ist
Suchmaschinen entdecken Seiten mithilfe automatisierter Programme, die oft als Crawler, Bots oder Spiders bezeichnet werden. Sie folgen Links von Seite zu Seite, lesen Inhalte und fügen sie einem riesigen Index hinzu, den sie später zur Beantwortung von Suchanfragen verwenden. Bevor ein wohlwollender Crawler Ihre Website liest, prüft er zuerst einen bestimmten Ort: eine Datei namens robots.txt, die ganz oben in Ihrer Domain liegt, z. B. ihredomain.de/robots.txt.
Diese Datei enthält eine kurze Reihe von Anweisungen, die in einem einfachen Format geschrieben sind. Sie benennt, für welche Crawler die Regeln gelten, und listet auf, welche Pfade sie anfragen sollten oder nicht. Stellen Sie es sich eher als Anweisungsblatt eines Türstehers als als verschlossenes Tor vor. Der Crawler liest das Blatt und befolgt die Anweisungen, wenn es sich um einen seriösen Crawler einer großen Suchmaschine handelt. Dies ist Teil der breiteren Welt der technischen SEO-Grundlagen, die stillschweigend beeinflussen, wie gut eine Website funktioniert.
Die Verbindung zum Crawl Budget
Jede Website erhält von Suchmaschinen ein ungefähres Aufmerksamkeitsbudget, das manchmal als Crawl Budget bezeichnet wird. Es ist die Menge an Crawling, die eine Suchmaschine in einem bestimmten Zeitraum auf Ihrer Website durchführen möchte. Für eine kleine Broschüren-Website spielt dies fast nie eine Rolle. Aber für einen großen Shop mit Tausenden von Seiten, Filtern und Suchergebnissen möchten Sie nicht, dass Crawler ihre Besuche für nutzlose URLs verschwenden. Eine durchdachte robots.txt kann sie von minderwertigen Ecken fernhalten, sodass sie mehr Energie auf die Seiten verwenden, die Ihnen Kunden einbringen.
Wie die Datei innen aussieht
Sie müssen kein Programmierer sein, um eine robots.txt-Datei zu lesen. Sie besteht aus einigen sich wiederholenden Elementen. Die häufigsten sind User-agent, der den Crawler benennt, für den die Regeln gelten, und Disallow, der einen Pfad auflistet, den Crawler meiden sollen. Es gibt auch Allow, der eine Ausnahme bildet, und eine Zeile, die auf Ihre Sitemap verweist.
Ein einfaches Beispiel könnte lauten: Für jeden Crawler, bitte besuchen Sie nicht den Admin-Ordner oder die internen Suchergebnisse, aber alles andere ist erlaubt, und hier finden Sie die Karte meiner wichtigen Seiten. Das ist im Wesentlichen das, was die Datei leistet. Die Kunst besteht darin zu entscheiden, was auf die "bitte vermeiden"-Liste gehört und was offen bleiben sollte.
Ein Sternchen und ein Schrägstrich leisten viel Arbeit
Zwei Symbole tragen viel Bedeutung. Das Sternchen fungiert als Platzhalter und passt zu jeder Zeichenfolge, und das Dollarzeichen markiert das Ende einer URL. So kann eine Regel jede URL ansprechen, die ein Fragezeichen enthält, oder jede Datei, die mit einer bestimmten Erweiterung endet. Das ist mächtig und etwas gefährlich: Ein unvorsichtig platzierter Platzhalter kann weit mehr abgleichen, als Sie beabsichtigt haben, und genau so entstehen versehentliche websiteweite Sperrungen.
Das Wichtigste, was man verstehen muss
Hier ist das Missverständnis, das den größten Schaden anrichtet, und es lohnt sich, es zweimal zu lesen: robots.txt steuert das Crawling, nicht die Indizierung. Das sind zwei verschiedene Dinge. Crawling ist, ob eine Suchmaschine die Seite liest. Indizierung ist, ob die Seite in den Suchergebnissen erscheinen kann. Das Blockieren einer Seite in robots.txt stoppt das Lesen, aber es verhindert nicht zuverlässig, dass die Seite in den Ergebnissen angezeigt wird.
Wie kann eine Seite in den Ergebnissen erscheinen, wenn der Crawler sie nie gelesen hat? Weil Suchmaschinen auch von Seiten erfahren, auf die von anderen Stellen verlinkt wird. Wenn viele Websites auf eine von Ihnen blockierte URL verlinken, kann die Suchmaschine sie trotzdem auflisten, oft mit einem bloßen Titel und dem Hinweis, dass keine Beschreibung verfügbar ist, weil das Crawling nicht erlaubt war. Wenn Ihr eigentliches Ziel also darin besteht, eine Seite vollständig aus den Suchergebnissen herauszuhalten, ist robots.txt das falsche Werkzeug. Sie würden stattdessen eine noindex-Anweisung auf der Seite selbst verwenden wollen, die ein Crawler nur sehen kann, wenn Sie ihm erlauben, die Seite zu lesen.
| Ihr Ziel | Richtiges Tool | Warum |
|---|---|---|
| Crawl-Aufwand für Junk-URLs vermeiden | robots.txt Disallow | Verhindert, dass Crawler den Pfad überhaupt anfordern. |
| Eine Seite aus den Suchergebnissen heraushalten | noindex-Tag auf der Seite | Der Crawler muss die Seite lesen, um die Anweisung zu sehen, also blockieren Sie sie nicht. |
| Private oder sensible Daten verbergen | Passwortschutz | robots.txt ist öffentlich; verlassen Sie sich niemals darauf für Sicherheit. |
| Crawler auf Ihre wichtigsten Seiten verweisen | Sitemap-Zeile in robots.txt | Hilft, wichtige URLs effizient zu entdecken. |
Was robots.txt nicht kann
Es lohnt sich, die Grenzen offen anzusprechen, denn Missverständnisse führen zu echten Problemen. Erstens, wie bereits erwähnt, garantiert es nicht, dass eine Seite aus den Suchergebnissen fernbleibt. Zweitens ist es keine Sicherheitsmaßnahme. Die Datei ist für jeden öffentlich lesbar, der die Adresse eingibt, sodass das Auflisten Ihres geheimen Admin-Pfads ihn neugierigen Blicken preisgibt. Wenn etwas privat bleiben muss, schützen Sie es mit einem Login, nicht mit einer höflichen Anfrage.
Drittens befolgen wohlwollende Crawler sie, aber nicht jeder Bot im Internet ist wohlwollend. Scraper und bösartige Bots ignorieren die Datei möglicherweise vollständig. Und schließlich kann das Blockieren einer Seite in robots.txt nach hinten losgehen, wenn diese Seite bereits Traffic generiert. Wenn ein Crawler sie nicht mehr lesen kann, verliert die Suchmaschine langsam ihr Verständnis dafür, was sich dort befindet, was die Rankings stillschweigend untergraben kann. Wenn Sie jemals mit Seiten zu kämpfen hatten, die gecrawlt, aber nicht indexiert wurden, ist robots.txt oft Teil des Diagnosepuzzles.
Die Fehler, die Unternehmen stillschweigend Traffic kosten
Die meisten robots.txt-Katastrophen sind nicht dramatisch. Sie sind klein, still und werden Wochen später entdeckt, wenn jemand bemerkt, dass der Traffic gesunken ist. Der berüchtigtste ist der übrig gebliebene Block aus einem Website-Build. Während der Entwicklung fügen Teams oft eine Regel hinzu, die alles verbietet, damit die unfertige Website nicht in der Suche erscheint. Der Fehler ist, sie am Starttag nicht zu entfernen. Die Website geht online, sieht für Besucher perfekt aus und ist für Suchmaschinen völlig unsichtbar, weil diese eine hartnäckige Zeile immer noch jedem Crawler sagt, er solle draußen bleiben.
Eigene Ressourcen blockieren
Ein weiterer klassischer Fehler ist das Blockieren der Dateien, die Ihre Seiten zum Funktionieren bringen, wie Stylesheets und Skripte. Vor Jahren haben einige Leute diese blockiert, um das Crawling "aufzuräumen". Heute rendern Suchmaschinen Seiten ähnlich wie ein Browser, wenn Sie also die Ressourcen blockieren, die das Layout steuern, sieht der Crawler eine kaputte, halbfertige Version Ihrer Seite und kann sie hart beurteilen. Lassen Sie Crawler die Assets erreichen, die Ihre Seiten korrekt aussehen und funktionieren lassen.
Widersprüchliche und zu allgemeine Regeln
Platzhalter sind wunderbar, bis sie mehr verschlucken, als beabsichtigt. Eine Regel, die einen bestimmten URL-Typ blockieren soll, kann versehentlich Ihren gesamten Katalog abgleichen, wenn das Muster zu locker ist. Widersprüchliche Allow- und Disallow-Zeilen verwirren ebenfalls, da die Art und Weise, wie Konflikte gelöst werden, für Laien nicht immer offensichtlich ist. Die sicherste Gewohnheit ist, die Regeln wenige, spezifisch und leicht lesbar zu halten und sie dann zu testen, anstatt ihnen zu vertrauen. Dies sind genau die Arten von Problemen, die ein gründlicher SEO-Audit aufdecken soll, bevor sie Ihnen schaden.
Was Sie normalerweise offen lassen sollten
Es ist verlockend zu denken, dass mehr Blockieren mehr Kontrolle bedeutet, aber das Gegenteil ist meist der Fall. Für die meisten Websites möchten Sie, dass Crawler Ihre Seiten frei lesen können. Die Seiten, die wirklich vom Blockieren profitieren, sind begrenzt: interne Suchergebnisseiten, die endlose "dünne" URLs generieren, bestimmte gefilterte oder sortierte Versionen von Kategorieseiten, die nahezu Duplikate erzeugen, Warenkorb- und Checkout-Schritte sowie Admin-Bereiche. Doch selbst dann ist das Blockieren nicht immer die beste Lösung für Duplikate. Manchmal lässt sich ein Problem mit doppeltem Inhalt besser mit kanonischen Tags lösen, damit die Suchmaschine die Beziehung zwischen den Seiten immer noch versteht.
Immer auf Ihre Sitemap verweisen
Eine wirklich hilfreiche Zeile, die Sie einfügen sollten, ist der Speicherort Ihrer XML-Sitemap. Sie gibt Crawlern eine ordentliche Karte der URLs, die Ihnen wichtig sind, was die Entdeckung beschleunigt, insbesondere für neuere oder größere Websites. Wenn Sie ein brandneues Projekt einrichten, gehört dieser kleine Schritt zu Ihrer Startroutine und passt natürlich zur breiteren Checkliste für SEO für neue Websites.
So überprüfen und testen Sie es sicher
Bevor Sie etwas ändern, schauen Sie sich an, was Sie bereits haben. Geben Sie Ihre Domain gefolgt von /robots.txt in einen Browser ein und lesen Sie es. Wenn Sie keine haben, ist das normalerweise in Ordnung; eine fehlende Datei bedeutet einfach, dass Crawler davon ausgehen, dass alles erlaubt ist. Wenn Sie eine haben, lesen Sie jede Zeile und fragen Sie sich, in einfacher Sprache: "Was hindert dies einen Crawler am Lesen, und möchte ich das tatsächlich?"
Wenn Sie Änderungen vornehmen, behandeln Sie diese mit Sorgfalt. Große Suchmaschinen bieten Testtools an, mit denen Sie überprüfen können, ob eine bestimmte URL gemäß Ihren Regeln erlaubt oder blockiert ist. Nutzen Sie diese. Es ist weitaus besser, eine Regel als erwartet zu bestätigen, als sie zu veröffentlichen und die Konsequenzen in Ihren Traffic-Berichten zwei Wochen später zu entdecken. Überwachen Sie nach Änderungen die Abdeckungsberichte auf plötzliche Spitzen bei blockierten Seiten und achten Sie auf die allgemeine Website-Gesundheit und Leistung, damit nichts unbemerkt bleibt.
Abstimmung mit Ihrer Gesamtstrategie
robots.txt existiert nicht isoliert. Sie arbeitet zusammen mit Ihrer Sitemap, Ihren internen Links und Ihren Indexierungsanweisungen. Eine starke interne Verlinkung hilft Crawlern, Ihre wichtigen Seiten effizient zu finden, was den Bedarf an starker Blockierung überhaupt reduziert. Wenn all diese Teile miteinander übereinstimmen, widmen Crawler ihre Aufmerksamkeit dem, was zählt, und Ihre besten Inhalte erhalten die Sichtbarkeit, die sie verdienen. Wenn Sie sich noch mit den Grundlagen vertraut machen, lohnt es sich, wie SEO funktioniert, als Ganzes zu betrachten.
Ein ruhiger Ansatz für eine kleine, aber mächtige Datei
Wenn es eine Einstellung gibt, die man mitnehmen sollte, dann diese: Bei robots.txt schlägt Zurückhaltung meist Enthusiasmus. Die Datei ist am nützlichsten, wenn sie schlank, überlegt und für einen Menschen auf einen Blick leicht verständlich ist. Blockieren Sie nur das, was wirklich blockiert werden muss, verlassen Sie sich niemals darauf, Geheimnisse zu verbergen, denken Sie daran, dass sie das Crawling und nicht die Ergebnisse steuert, und verweisen Sie immer auf Ihre Sitemap. Und testen Sie, bevor Sie vertrauen.
So gehandhabt wird diese bescheidene Textdatei zu einem stillen Verbündeten, der Suchmaschinen zu Ihrer besten Arbeit und weg vom Chaos führt. Achtlos gehandhabt wird sie zu einer der einfachsten Möglichkeiten, aus der Suche zu verschwinden, ohne zu merken, warum. Die gute Nachricht ist, dass ein wenig Aufmerksamkeit jetzt bedeutet, dass Sie selten wieder darüber nachdenken müssen. Wenn Ihre Website komplex geworden ist oder Sie sie kürzlich verschoben haben, ist es ratsam, eine robots.txt-Überprüfung in einen umfassenderen technischen Gesundheitscheck oder eine geplante Website-Migration einzubeziehen und Hilfe in Anspruch zu nehmen, wenn etwas verheddert aussieht.
Häufig gestellte Fragen
Benötigt jede Website eine robots.txt-Datei?+
Wird das Blockieren einer Seite in robots.txt sie aus Google entfernen?+
Kann ich robots.txt verwenden, um private Informationen zu verbergen?+
Ich habe versehentlich etwas blockiert. Wie schnell wirkt sich die Behebung aus?+
Referenzen
- Google Search Central. "Einführung in robots.txt." developers.google.com.
- Google Search Central. „Wie Google die robots.txt-Spezifikation interpretiert.“ developers.google.com.
- Bing Webmaster Tools. „Crawl-Steuerung und robots.txt.“ bing.com.