WAS IST DIE ROBOTS.TXT? Die robots.txt-Datei ist eine einfache Textdatei,...
WEITERLESENINHALTSVERZEICHNIS:
Strategische SEO Beratung vom erfahrenen Freelancer:
Robert Goese – SEO Beratung: Tel. 030 / 53 00 56 01
WAS SIND XML-SITEMAPS?
SIND XML-SITEMAPS WICHTIG?
XML-Sitemaps sind für die technische SEO von großer Bedeutung, da sie Suchmaschinen wie Google, Bing und anderen helfen, alle wichtigen Seiten einer Website effizient zu finden und zu crawlen. Weiterhin können Suchmaschinen auch die Erfassung der Domainstruktur erleichtern. Sie sind besonders hilfreich in folgenden Szenarien:
- Große Websites: Bei vielen Seiten kann es sehr schwierig sein, alle durch interne Verlinkung zu erreichen.
- Neue Websites: Neue Seiten haben oft wenige externe Links, die Suchmaschinen auf sie aufmerksam machen.
- Seiten mit umfangreichen Archiven: Seiten mit vielen archivierten Inhalten, die nicht gut verlinkt sind, profitieren von Sitemaps.
- Dynamische Inhalte: Websites, die regelmäßig aktualisiert werden, können Suchmaschinen über die Aktualität ihrer Inhalte informieren.
- Webseiten mit vielen Media-Inhalten (Bilder, Videos)
- Nachrichten-Seiten (Google News, Google Discover)
Auf XML-Sitemaps können also wirklich nur sehr kleine Seiten oder Seiten mit wenigen Videos bzw. Bildern verzichten.
ARTEN & AUFBAU XML-SITEMAPS
Google unterstützt derzeit XML-Sitemaps für Seiten, Bilder, Videos und Nachrichten/News. Allen gemein ist die Codierung in UTF-8 und alle URL-Pfadangaben müssen absolut sein (kompletter Dateipfad einschließlich Domainangabe).
Weiterhin dürfen Sitemaps nur 50.000 URLs enthalten (bzw. 50 MB). Sollten mehr URLs vorhanden sein (passiert gerade bei Online-Shops sehr schnell), müssen die Sitemaps aufgeteilt werden und eine Sitemap-Indexdatei erstellt werden (siehe unten).
Aufbau von XML-Sitemaps für Webseiten
Hierbei handelt es sich um die gebräuchlichste Art von Sitemap. Sie enthält eine Liste der URLs auf einer Website, die für das Crawling und die Indexierung durch Suchmaschinen relevant sind. Jede URL kann zusätzliche Informationen wie das Datum der letzten Aktualisierung, die Änderungsfrequenz und die Priorität enthalten. Hier die Angaben im einzelnen:
- Einleitendes <urlset> für eine Liste an URLs, die dem Sitemapprotokoll nach sitemaps.org folgen
- <loc> bzw. Location für die einzelne URL
- <lastmod> für das Datum der letzten Aktualisierung
- <changefreq> für die Aktualisierungsfrequenz (Angabe in hourly, daily, weekly, monthly, yearly…)
- <priority> für die Priorität der einzelnen URL innerhalb der Domain: Angabe zwischen 0,1 und 1, wobei 1 die höchste Priorität besitzt und nur der Startseite zugeteilt werden sollte (die weiteren Werte sind 0,2; 0,3; 0,4; etc.)
Beispielhafter Aufbau einer XML-Sitemap für Webseiten-URLs:
https://www.example.com/
2023-01-01
monthly
1.0
https://www.example.com/page1
2023-01-01
weekly
0.8
In einer XML-Sitemap sollten nur die wichtigen Seiten einer Domain gelistet werden, um Crawlbudget zu sparen und Google das Crawlen bzw. die Indexierung zu vereinfachen. Hier können auch Seiten, die schlecht verlinkt sind aufgeführt werden: sogar wichtige Seiten, die gar nicht verlinkt und nur durch Useraktivitäten (Filteranwendung, hinter Formularen wie der Suche versteckt o.ä.) aufrufbar sind, können so Google bekannt und gecrawlt bzw. indexiert werden.
Auch sollten für alle vorhandenen Sprachversionen bzw. Länderversionen einer Domain jeweils eine eigene Sitemap erstellt werden. Es sollten nur kanonische Dateipfade angeben werden (durch rel=canonical im Headvereich der Seiten verlinkt). Hier ein Codebeispiel:
Bilder-Sitemap
Bild-Sitemaps sind speziell dafür gedacht, Suchmaschinen zusätzliche Informationen über die auf einer Website verwendeten Bilder zu geben. Dies ist besonders nützlich für Websites mit vielen Bildern, wie Fotogalerien oder E-Commerce-Websites. Eine Bild-Sitemap kann Informationen wie den Speicherort des Bildes, den Titel und die Bildunterschrift enthalten.
Bilder-Sitemaps unterstützen das Crawlen und Indexieren auch für die Bildersuche bei Google.
Beispielhafter Aufbau einer Bilder XML-Sitemap:
https://www.example.com/page1
https://www.example.com/images/image1.jpg
Example Image Caption
Example Image Title
Video-Sitemap
Video-Sitemaps bieten Suchmaschinen zusätzliche Informationen zu den auf einer Website eingebetteten Videos. Dies ist besonders nützlich für Websites mit vielen Video-Inhalten, wie Videoportale oder E-Learning-Plattformen. Eine Video-Sitemap kann Informationen wie den Speicherort des Videos, den Titel, die Beschreibung, die Dauer und die Kategorie enthalten.
Beispielhafter Aufbau einer Video XML-Sitemap:
https://www.example.com/videos/video1
Nachrichten-Sitemap
Nachrichten-Sitemaps sind für Nachrichten-Websites konzipiert nd für diese auch unerlässlich. Sie helfen Suchmaschinen, aktuelle Inhalte schnell zu finden und zu crawlen und zu indexieren. Diese Sitemaps enthalten zusätzliche Informationen wie das Publikationsdatum, die Newssprache, Nachrichtenkategorie und Schlüsselwörter.
Nachrichten-Sitemaps können bei entsprechender Qualität der Artikel dazu beitragen, dass der News-Artikel auch bei Google News und Google Discover veröffentlicht wird. Sie können also unter Umständen zu erheblichen Traffic-Steigerungen führen.
Beispielhafter Aufbau einer Nachrichten XML-Sitemap:
https://www.example.com/news/article1
Example News Site
en
2023-01-01
Example News Article Title
example, news, article
Sitemap-Indexdatei
Eine Sitemap-Indexdatei ist eine XML-Datei, die mehrere Sitemaps auflistet. Dies ist besonders nützlich für große Websites, die mehr als 50.000 URLs oder mehrere Arten von Sitemaps (Bilder-, Video-, Nachrichten-Sitemaps oder auch die lokalisierten Fassungen) haben.
Eine Sitemap-Indexdatei ermöglicht es also Suchmaschinen, alle Sitemaps effizient zu finden und zu crawlen.
Beispielhafter Aufbau einer Sitemap-Index-Datei:
https://www.example.com/sitemap1.xml
2023-01-01
https://www.example.com/sitemap2.xml
2023-01-01
ERSTELLUNG VON XML-SITEMAPS
Manuelle Erstellung
Eine XML-Sitemap kann manuell mit einem Texteditor erstellt werden, indem man die URLs im XML-Format auflistet. Die manuelle Erstellung bietet sich nur bei Websites mit wenigen URLs an (Empfehlung: unter 50). Auch sollte dies nur bei Domains erfolgen, die kaum ihre Inhalte aktualisieren.
Verwendung von Sitemap-Generatoren
Es gibt viele Online-Tools und Software, die XML-Sitemaps automatisch erstellen können. Einige beliebte Tools sind:
- XML-Sitemaps.com: Ein kostenloser Online-Generator.
- Screaming Frog SEO Spider: Ein Desktop-Tool für die SEO-Analyse, das auch Sitemaps generieren kann (bis 500 URLs kostenlos).
- WordPress Sitemaps durch Yoast SEO / RankMath etc.: WordPress-Plugins, die automatisch XML-Sitemaps erstellen.
- Fast für jedes CMS gibt es entsprechende Plugins. Schauen Sie auf den entsprechenden Seiten nach.
- Das Apache Server Modul Google Sitemap Generator
Komprimierung von XML-Sitemaps
Google ist auch in der Lage mit komprimierten XML-Sitemaps umzugehen. Wenn also die Sitemap nur bis zu 50.000 URLs enthält, aber größer als 50 MB ist, bietet sich hier die Gelegenheit die Sitemap per Gzip (Dateiendung .gz)zu komprimieren um hier wieder unter eine Höchstgrenze von 50 MB zu kommen.
Durch die Gzip-Komprimierung wird die Datei erheblich kleiner und vermindert so die Ladezeit. Die Komprimierung bietet sich also auch für mittelgroße Sitemaps-Dateien an, zumal komprimierte Sitemaps absolut gleichberechtigt behandelt werden.
XML-SITEMAPS BEI GOOGLE EINREICHEN
Google kann durch mehrere Möglichkeiten vom Vorhandensein von XML-Sitemaps erfahren: Wichtig ist nur, dass die Sitemap im Stammverzeichnis abgespeichert wird und so für alle Seiten einer Domain wirksam wird:
Pfadangabe der Sitemap in der robots.txt
In der robots.txt finden sich nicht nur Anweisungen für das Crawlverhalten der einzelnen Suchmaschinen. Hier wird auch der Pfad zu den einzelnen Sitemaps bzw. zur Sitemap-Indexdatei hinterlegt. Da die robots.txt mitgecrawlt wird, findet Google & Co. die Sitemaps zuverlässig und schnell:
// Angabe der XML-Sitemap in der robots.txt
Sitemap: https://example.com/sitemap.xml
// Angabe der Sitemap-Indexdatei in der robots.txt
Sitemap: https://example.com/sitemap-index.xml
Einreichung der Sitemap bei der Google Search Console
Die Google Search Console ist sicherlich mit das wichtigste Werkzeug des technischen SEOs. Hier gibt Google viele Daten zum Crawling und der Indexierung der eigenen Webseite bekannt und zeigt eventuelle Fehler auf. Die Anmeldung der Webseite in diesem kostenfreien Tool ist also absolut ratsam. Nach der Anmeldung wird Google der Pfad zu den Sitemaps bekanntgeben, diese werden zeitnah gecrawlt und etwaige Fehler angezeigt:
Einreichung durch Google Search Console API
Bei sehr großen Webseiten ist vielleicht die programmatische Einreichung der Sitemaps bei Google der bessere Weg. So können sehr große, viele oder sich dynamisch ständig aktualisierende Sitemaps besser verwaltet werden.
Allerdings sind hierfür auch etwas Programmierkenntnisse nötig: Google Search Console API Sitemaps
Manuelle Alternative der Sitemap-Anmeldung
Ist keine Search Console für die Domain eingerichtet, kann Google über eine neue Sitemap alternativ mit diesem Link www.google.com/webmasters/tools/ping?sitemap=http://www.example.com/neue-sitemap.xml
informiert werden (Angaben durch eigene URL ersetzen).
SITEMAPS: Best Practices
Vermeidung sensibler Daten
Stellen Sie sicher, dass keine sensiblen Informationen oder Seiten in der robots.txt-Datei offengelegt werden. Obwohl die Datei Anweisungen zum Blockieren des Crawling gibt, bleibt sie öffentlich zugänglich.
Testen der Datei
Verwenden Sie Tools wie die Google Search Console, um Ihre robots.txt-Datei zu testen und sicherzustellen, dass sie wie gewünscht funktioniert. Das Tool „robots.txt-Tester“ hilft, Syntaxfehler zu identifizieren und zu korrigieren.
Regelmäßige Überprüfung und Aktualisierung
Die robots.txt-Datei sollte regelmäßig überprüft und aktualisiert werden, um sicherzustellen, dass sie den aktuellen Anforderungen und der Struktur der Website entspricht .
Nutzung von Wildcards
Wildcards (z.B. *) können verwendet werden, um Muster zu definieren und mehrere ähnliche URLs zu blockieren.
User-agent: *
Disallow: /temp*
Indexierungstatus mit XML-Sitemaps bestimmen
Mit XML-Sitemaps läßt sich das häufige Problem aus der Welt schaffen, welches Seitenbetreiber von großen Websites haben: Sie wissen oft nicht, welche Seiten indexiert sind bzw. welche es nicht sind. Anstatt also nun große Sitemaps mit 10.000 URLs zu erstellen, lieber kleine Sitemaps mit wenigen URLs und diese dann in der Sitemap-Index-Datei verlinken.
In der Google Search Console wird nun bekannt gegeben, dass z.B. in der Sitemap 128 kaum Seiten indexiert sind. So werden die nicht indexierten Seiten schnell erkannt und eine verstärkte Verlinkung oder „Abruf wie durch Google“ in der Search Console können die Indexierung veranlassen. (Tipp von Stephan Czysch)
HÄUFIGE FEHLER UND DEREN VERMEIDUNG
I. Fehlerhafte Syntax
Syntaxfehler können dazu führen, dass die Anweisungen in der robots.txt-Datei nicht korrekt interpretiert werden. Verwenden Sie Tools wie den robots.txt-Tester in der Google Search Console, um Fehler zu vermeiden .
II. Blockierung wichtiger Seiten
Vermeiden Sie die Blockierung von Seiten, die für die Indexierung wichtig sind, wie z.B. Hauptkategorien oder wichtige Inhalte. Eine unüberlegte Blockierung kann die Sichtbarkeit Ihrer Website in den Suchergebnissen negativ beeinflussen .
III. Falsche Platzierung der Datei
Die robots.txt-Datei muss im Stammverzeichnis der Website platziert werden. Eine falsche Platzierung, z.B. in einem Unterverzeichnis, wird von den Crawlern nicht erkannt .
IV. Annahme, dass Disallow gleich Noindex ist
Die Anweisung Disallow verhindert das Crawling, jedoch nicht die Indexierung. Um sicherzustellen, dass eine Seite nicht indexiert wird, verwenden Sie das Meta-Tag „noindex“ in der HTML-Datei der Seite .
Mobile Sitemaps
Wenn die mobile Version der Website andere URLs als die Desktopversion aufweist, besteht die Möglichkeit eine mobile Sitemap zu erstellen. Dies ist besonders wichtig, da Google die Indexierung „mobile first“ initiiert. Im Großen und Ganzen ähnelt auch die eine mobile Sitemap der ganz normalen Sitemap:
// Beispielcode für eine mobile Sitemap
http://example.com/mobile-seite.html
// ...weitere mobile URLs
MOBILE SEO
INTERNATIONALE XML-SITEMAPS
Es gibt existiert die Möglichkeit Google und andere Suchmaschinencrawler von vorhandenen Sprachversionen bzw. Länderversionen durch XML-Sitemaps zu informieren.
Gerade bei großen Webseiten empfiehlt sich die Einrichtung solcher Sitemaps, da ansonsten die reale Gefahr besteht, dass Google die falschen Sprachversionen bzw. Länderversionen in den Suchergebnissen anzeigt. Die Verwaltung der hreflangBei internationalen Webseiten werden diese unbedingt empfohlen!
Bei der Einrichtung sind zwei verschiedene Optionen möglich: Die Einrichtung einzelner Sitemaps für die verschiedenen Sprachen und die Einrichtung einer kombinierten Sitemap mit der Angabe der entsprechenden hreflangs.
Da diese speziellen Sitemaps für Maßnahmen der internationalen Suchmaschinenoptimierung darstellen, werden die Möglichkeiten in der Kategorie „internationales SEO“ ausführlich dargestellt.
INTERNATIONALE SEO
FAQs zu XML-Sitemaps
Was ist ein eine robots.txt?
Was genau ist der Googlebot
Der Googlebot ist ein Webcrawler. Die Software ist eigentlich nichts anderes als ein Chrome-Browser, der aktiv den Links im Internet folgt und die Webseiteninformationen für die weitergehende Indexierung verwendet. Der Googlebot crawlt also über das HTTP-Protocoll wie der normale User auch, mit der Einschränkung.
Wie kann ich das Crawling beeinflußen?
Wie lange dauert es, bis eine Webseite von Google gecrawlt wird?
Im Durchschnitt dauert es drei Tage bis Google eine aktualisierte oder neue Seite crawlt. Hierbei spielen aber auch die Qualität, Aktualität, Schnelligkeit, Verlinkung der Website eine Rolle. Nachrichtenseiten werden übrigens häufiger gecrawlt.
Quellen und weiterführende Artikel
Über 19 Jahre SEO-Erfahrung in Agenturen wie IBM iX, bei Scholz & Friends, beim Bauer Verlag und als selbstständiger SEM-Agentur Inhaber. Von der lokalen Rechtsanwaltsseite über mittelständische Unternehmen bis zu hin zu Airbus, Siemens, VW Nutzfahrzeuge, Hyundai, AOK und viele deutsche Ministerien etc.
SEO ist immer ganzheitlich und userzentriert. Sie spielt somit in allen digitalen Bereichen eine große Rolle. Von der Strategie, beim Design, im technischen Development und im Marketing. Hierdurch wird SEO nie langweilig und ich lerne jeden Tag noch etwas hinzu.