Technische SEO ist die Gundvoraussetzung für Auffindbarleit von aufwendig erstellten...
WeiterlesenINHALTSVERZEICHNIS:
Strategische SEO Beratung vom erfahrenen Freelancer:
Die Google Indexierung ist der entscheidene Prozess, bei dem Google (und andere Suchmaschinenspider) Informationen über eine Webseite sammelt und in seinen Index aufnimmt. Der Google-Index ist eine riesige, strukturierte Datenbank, die als Grundlage für den Ranking-Algorithmus und damit für die Aufnahme der Seiten in den Suchergebnissen dient. Die Indexierung folgt nach dem Crawling und ist nicht mit diesem identisch (aber stark zusammenhängend: nur gecrawlte Seiten können indexiert werden).
Robert Goese – SEO Beratung: Tel. 030 / 53 00 56 01
Funktionsweise der Indexierung
Die Indexierung nach dem Crawl
Erst nachdem der Google Crawl stattfand werden im nächsten Prozess die gesammelten Informationen der gecrawlten URL an den Google-Indexer geliefert.
Dieser entscheidet aufgrund vieler verschiedener Qualitätskriterien (Rankingfaktoren) die Aufnahme in den Index und vergibt einen Quality Score für die Seite. Die Qualitätskriterien vor 14 Jahren beliefen sich bei Google laut eigener Aussagen auf ca. 200 Kriterien, laut vor kurzem stattgefunden Google Leak mittlerweile auf ca. 17.000. Jedoch lassen sich auch diese kurz zusammenfassen, um einen ersten Eindruck in die Google Indexierung und der Vergebung des Quality Scores zu geben:
- Wie oft kommt das Keyword auf der Seite vor (Keywordstuffing)?
- Wo kommt es vor (Title, Description, Maincontent, Mediendateinamen, Alt-Tags etc.)?
- Bietet die Seite einen echten User-Mehrwert: Handelt es sich um eine Qualitätsseite, ein einfaches Plagiat (Duplicate Content) oder Spam? Sind die Informationen detailiert, umfassend und einzigartig oder einfach nur kuratiert (sind die Infos so auf vielen Seiten auch erreichbar)?
- Entsprechen die Inhalte den E-E-A-T Richtlinien (besondere Qualitätsrichtinien für sensible Inhalte wie gesundehit, Finanzen etc.)
- Sind die Inhalte aktuell?
- Wird die Seite oder Domain von themennahen Autoritäten / Domains verlinkt?
- Ist die Seite vom Crawling ausgesperrt (robots.txt etc.)
- Gibt es eine andere canonisierte URL? Wird die URL weitergeleitet?
- Ist die Seite zur Indexierung freigegeben? (Meta-Robots-Tags etc.)
- Ist die Seite userfreundlich (Pagespeed, Mobilfreundlichkeit etc.) und sicher (SSL, Seite gehackt, etc.)?
- Wird übermäßig viel Werbung geliefert?
- Ist die Seite technisch okay und liefert einen 200er Statuscode (nicht 404 Fehler o.ä.)
- URL ohne lange SessionIDs, Parameter und Umlaute (kommt leider öfters vor…)
- …
Diese Liste läßt sich immer weiter führen. Wir verstehen aber, dass nach dem Crawlen nicht jede Seite im Google Index landet und es einiger Anstrengung bedarf Websites in die Suchergebnisse zu bekommen.
Alle Rankingfaktoren zahlen letztendlich auf eine gute Search Experience ein. Neben den technischen Voraussetzungen der Crawlbarkeit etc. spielt also der Usermehrwert eine erhebliche Rolle um einen guten Quality Score zu erreichen.
Grundsätzlich müssen nicht alle Webseiten einer Domain indexiert werden – nur solche, die eben wichtig sind und eine gute Search Experience garantieren.
Matt Cutts von Google erklärt sehr einfach die Funktionsweise der Google Suche (einschließlich Crawling und Indexierung) – Englisch mit deutschen Untertiteln
Ist meine Seite indexiert?
Überprüfung der Indexierung durch site-Abfrage
Google bietet die Möglichkeit durch die site-Abfrage festzustellen wieviele Seiten einer Domain indexiert sind, bzw. ob eine URL schon indexiert wurde. Hierbei wird folgendes in den Suchschlitz bei Google eingegeben:
Site-Abfrage | Bedeutung |
---|---|
site:example.com | Hier gibt die Google Suche die Seiten aus, die unter einer Domain indexiert wurden* |
site:https://example.com/untersuchende-seite.html | Ist diese URL indexiert? Wenn ja, wird sie in den Suchergebnissen gelistst |
site:example.com Amsel | Welche Seiten der Domain sind mit dem Begriff "Amsel" indexiert |
site:https://example.com/untersuchende-seite.html Amsel | Wurde die Seite mit dem Begriff "Amsel" indexiert |
site:example.com inurl:amsel | Welche indexierten Seiten haben den Begriff "Amsel" in der URL |
site: example.com inurl:amsel | Welche indexierten Seiten haben den Begriff "Amsel" in der URL |
*Wichtig: Da die site-Abfrage eigentlich nur für normale Nutzer und nicht für Seitenbetreiber entwickelt wurde, werden bei der Abfrage site:example.com für große Domains nicht alle URLs angezeigt. Hier hilft die Spezialisierung der Abfrage um bessere Ergebnisse zu erhalten (z.B. auf einen Unterordner wie site:example.com/beispielordner/).
Weiterhin haben die Angaben kein Bezug zum Ranking einer Webseite. Das erste Ergebnis ist meist einfach die Homeseite bzw. die Seite mit der kürzeren URL. Dennoch gibt die Abfrage schon gute Hinweise und für spezielle URLs ist sie zuverlässig.
Google Search Console Indexierung beantragen & überprüfen
Indexierung einzelner URLs
Die site-Abfrage funktioniert für alle Domains ist aber zum Teil etwas unzuverlässig. Für die eigene Domain kann der Indexierungsstatus präziser in der Google Search Console aufgerufen werden. Für einzelne URLs kann dies durch das URL-Prüfungstool der Search Console erfolgen:
Hierfür einfach die entsprechende URL (inkl. https://example.com/) nach Klick auf die URL-Prüfung in den Suchschlitz eingeben.
Jetzt ruft Google den Indexierungstatus ab und gibt an, ob die Seite schon indexiert wurde. Ebenso wird angegeben, welche Gründe für eine Nicht-Indexierung vorliegen. Wenn die Seite noch nicht indexiert wurde, kann die Indexierung manuell durch Klick auf „Indexierung beantragen“ ausgelöst werden.
Hierdurch wird die Seite in eine Crawling- Warteschlange gesetzt und wohl zeitnah gecrawlt – die Indexierung wird somit beschleunigt.
Die Indexierung kann aber nicht garantiert werden, da die Aufnahme in den Google Index noch weitere Parameter erfordert (wie Usermehrwert, Einzigartigkeit etc. siehe oben „Funktionsweise der Indexierung“).
Mehrfaches Anmelden einer Seite sollte die Indexierung nicht beschleunigen.
Indexierung mehrerer URLs
Um den gesamten Indexierungsstatus der Domain zu erfahren, können Sie einfach in der Search Console den Seiten-Bericht unter Indexierung anklicken:
Hierdurch werden die Anzahl der indexierten bzw. nicht indexierten Seiten im zeitlichen Verlauf angezeigt. Zusätzlich werden eventuelle Indexierungsfehler dargestellt. Die Angaben lassen sich auch noch filtern: für alle bekannten Seiten, eingereichte bzw. nicht eingereichte Seiten und nach den einzelnen Sitemaps.Diese Filterungsmöglichkeiten können das Indexierungsmanagement bei großen Websites vereinfachen, wenn viele Sitemaps eingereicht worden sind.
Mehr z den angezeigten Indeierungsfehlern finden Sie unten unter „Indexierungsfehler und Behebung“
Meine Kollegin Nora Taubert von Seokratie erklärt anschaulich die Möglichkeit der manuellen Beantragung der Google Indexierung in der Google Search Console (Deutsch)
Indexierung & Canonical-Tag
Was ist der Canonical-Tag?
Der Begriff „Canonical“ bezieht sich auf das rel=“canonical“-Attribut, welches in HTML verwendet wird, um Suchmaschinen mitzuteilen, welche Version einer URL als die bevorzugte, originale oder „kanonische“ Version betrachtet werden soll.
Dies ist besonders wichtig bei der Vermeidung von Duplicate Content, indem es Suchmaschinen hilft, die ursprüngliche Quelle eines Inhalts zu identifizieren und indexieren. Dieses Tag teilt also Suchmaschinen mit, dass die angegebene URL als die Hauptversion der Seite betrachtet werden soll, auch wenn derselbe Inhalt unter verschiedenen URLs zugänglich ist.
Das Canonical-Tag wird im <head>-Bereich einer HTML-Seite platziert und sieht wie folgt aus:
// Bespielcode für Canonical-Tag im HTML-Head
Die Pfadangabe für XML-Sitemaps
XML-Sitemaps gelten als die Landkarten der Suchmaschinen (und sind damit sehr wichtig für die technische SEO). Im nächsten Kapitel befinden sich weitere Informationen zu den XML-Sitemaps. Für die robots.txt Datei ist es wichtig, dass dort der Pfad zu den XML-Sitemaps angegeben werden kann, da sie nicht an einen vorgeschriebenen Speicherort wie die robots.txt gebunden ist.
Crawlbudget
xxxsx
Ausführliche Veröffentlichung von Google zum Canonical
Indexing-API und IndexNow
Indexing API nur für Jobbörsen und Livestream-Videos
Die Indexing API von Google ist ein Werkzeug, das speziell entwickelt wurde, um die Indexierung von Inhalten von kurzlebigen Seiten in der Google-Suche zu beschleunigen. Es bietet die Möglichkeit Google direkt über neue oder aktualisierte Inhalte zu informieren. Dies führt zu primär einem schnelleren Crawlen und sekundär zu einer schnelleren Indexierung. Leider wird zurzeit die API nur für Jobpostings und Livetream-Video-Anbieter unterstützt.
Die API bietet neben der direkten Information an Google über Änderungen auch die effektive Verwaltung nicht mehr existenter Seiten: diese können ebenfalls über die API gesendet werden, damit diese aus dem Index genommen werden können.
Ebenso wird durch die gezielte Übermittlung relevanter URLs das Crawl-Budget effizienter genutzt, was besonders für große Websites von Vorteil ist. Mit einem API-Aufruf sind 100 URLs übermittelbar. Durch die gezielte Übermittlung ist eine bessere Kontrolle über den Indexierungsprozess gegeben.
IndexNow für alle?
IndexNow ist ein relativ neues Protokoll, das von den Suchmaschinen Bing und Yandex im Oktober 2021 eingeführt wurde. Es wurde entwickelt, um den Prozess der Indexierung von Webseiten effizienter und schneller zu gestalten, indem es Suchmaschinen direkt benachrichtigt, wenn Inhalte auf einer Website erstellt, aktualisiert oder gelöscht werden. Dies reduziert die Verzögerungen, die typischerweise bei der herkömmlichen Methode des Web-Crawlings auftreten. Laut Search Engine Land sind im Juli 2022 schon ganze 7% aller Klicks bei der Bing Search auf Seiten erfolgt, die IndexNow verwenden.
Funktionsweise von IndexNow
IndexNow ermöglicht es Webmastern, Suchmaschinen in Echtzeit über Änderungen auf ihren Websites zu informieren. Dies geschieht durch das direkte Pingen der Suchmaschinen, wenn neue Inhalte veröffentlicht oder bestehende Inhalte geändert oder entfernt werden. Im Gegensatz zu herkömmlichen XML-Sitemaps, bei denen eine vollständige Liste aller URLs einer Website bereitgestellt wird, übermittelt IndexNow (ähnlich der Indexing API) nur die URLs, die tatsächlich Änderungen erfahren haben (bis zu 10.000 pro Anfrage).
Fast alle großen CMS- und Shopsysteme (WordPress, Joomla, Drupal, Typo3, Shopware, Shopify, Prestashop u.v.a. bieten mittlerweile Plugins an, die eine einfache, problemlose Integration von IndexNow ohne etwaige Programmierkenntnisse ermöglichen.
Ansonsten kann unter Bing ein API-Key generiert werden (z.B. 2769591d
) und als einziger Inhalt einer UTF-8-Textdatei unter dem entsprechenden Namen im Rootverzeichnis auf der eigenen Domain gehostet werden (z.B. https://www.example.com/2769591d.txt
). Ab dann können die Anfragen gestartet werden.
// Bespielabfrage für IndexNow für eine einzelne URL (SuchmaschinenURL durch Suchmaschine bereitgestellte URL z.B. "bing.com" ersetzen)
https://SuchmaschinenURL/indexnow?url=http://www.example.com/neue-datei.html&key=2769591d&keyLocation=http://www.example.com/2769591d.txt
// bzw.
https://bing.com/indexnow?url=http://www.example.com/neue-datei.html&key=2769591d&keyLocation=http://www.example.com/2769591d.txt
// Bespielcode für IndexNow in Python
import requests
API_ENDPOINT = "https://api.indexnow.org/indexnow"
API_KEY = "Ihr-API-Schlüssel"
def submit_url(url):
payload = {
"host": "www.example.com",
"key": API_KEY,
"keyLocation": "https://www.example.com/api-key.txt",
"urlList": [url]
}
response = requests.post(API_ENDPOINT, json=payload)
return response.status_code
# Beispiel-URL zur Indexierung übermitteln
submit_url("https://www.example.com/neuer-inhalt")
Nähere Informationen zur Benutzung finden sich auf der oben verlinkten Bing-Seite für die API-Key Generierung.
Vorteile von IndexNow
- Schnellere Indexierung: Durch die direkte Benachrichtigung der Suchmaschinen über Änderungen werden diese schneller in den Index aufgenommen, was zu aktuelleren Suchergebnissen führt.
- Reduzierung der Serverlast: Da die Suchmaschinen gezielt über Änderungen informiert werden, müssen sie nicht regelmäßig die gesamte Website crawlen, was die Belastung der Server reduziert.
- Einfache Implementierung: Die Implementierung von IndexNow erfordert nur wenige technische Anpassungen und kann leicht in bestehende Content-Management-Systeme integriert werden.
- Einfacher Prozess: Ein einziger Aufruf kann 10.000 URLs an alle teilnehmenden Suchmaschinen übermitteln
- Effektivere Verwaltung: Es können auch Seiten ohne 200er Statuscode (ähnlich der Index API) übermittelt werden
Google hat sich dazu bereit erklärt IndexNow zu testen. Es wurde aber nicht bekanntgegeben wie lange getestet wird bzw. ob IndexNow nun wirklich integriert wird bzw. ist. Angesichts der vielen Vorteile, die IndexNow bietet, sollte sich Google von der nur von wenigen nutzbaren Indexing API verabschieden und IndexNow langfristig implementieren.
Crawl Directives vs. Index Directives
Crawl Directives
Unter Crawl Directives vesteht man die Anweisungen, die das Crawlen einer Website betreffen (z.B. „Allow“ und „disallow“).
Index Directives
Unter Index Directives versteht man die Anweisungen, die die Indexierung der Website betreffen (z.B. <meta name=“robots“ content=“noindex“>).
Vermischung von Crawl & Index Directives
Die Direktiven sind somit nicht identisch und können sich auch widersprechen. So werden die „noindex“-Anweisungen in vom Crawling blockierten Dateien nicht gelesen. Wenn diese dann von außerhalb verlinkt werden, können solche Dateien trotzdem indexiert werden und und in den Suchergebnissen (SERPS) von Google erscheinen.
Indexierung & X-Robots-Tag
Indexierungs-Steuerung bei PDF-Dateien und Co.
Bei Bildern und PDF-Dateien sind grundsätzlich keine Indexierungs Directiven im Headbereich der Dateien möglich. Auch bei Verwendung von „nofollow, noindex“-Links zu diesen Dateien wird die Google Indexierung, bei bestehenden externen Links zu solchen Dateien, unter Umständen möglich.
Um hier die Indexierung zu steuern hilft die Verwendung des X-Robots-Tag in der .htaccess-Datei:
// Bespielcode für einzelne Datei in der .htaccess-Datei
Header add X-robots-tag "noindex, noarchive, nosnippet"
// Bespielcode für alle PDF und JPG Dateien in der .htaccess-Datei - z.B bei großen Websites
Header add X-robots-tag "noindex, noarchive, nosnippet"
// hierdurch können auch alle anderen Dateitypen von der Indexierung ausgeschlossen werden
Die Verwendung des X-Robots-Tag ist also eine wertvolle Maßnahme der technischen SEO. Allerdings ist bei der Bearbeitung der .htaccess-Datei Vorsicht geboten: Fehler können dramatische Auswirkungen haben. Mehr Infos zur .htaccess-Datei finden Sie hier.
Was ist eine .htaccess-Datei?
In dieser werden vor allem Angaben zu Weiterleitungen, Passwortschutz, Caching und Komprimierung der Seiten aufgeführt. Sie ist damit eine sehr wichtige Datei für die technische SEO und Fehler in der Konfiguration können sogar zum kompletten Absturz der Seite führen!
FAQs zu zum Google Crawl
Was ist Crawling?
Was genau ist der Googlebot
Der Googlebot ist ein Webcrawler. Die Software ist eigentlich nichts anderes als ein Chrome-Browser, der aktiv den Links im Internet folgt und die Webseiteninformationen für die weitergehende Indexierung verwendet. Der Googlebot crawlt also über das HTTP-Protocoll wie der normale User auch, mit der Einschränkung.
Wie kann ich das Crawling beeinflußen?
Wie lange dauert es, bis eine Webseite von Google gecrawlt wird?
Im Durchschnitt dauert es drei Tage bis Google eine aktualisierte oder neue Seite crawlt. Hierbei spielen aber auch die Qualität, Aktualität, Schnelligkeit, Verlinkung der Website eine Rolle. Nachrichtenseiten werden übrigens häufiger gecrawlt.
Quellen und weiterführende Artikel
Über 19 Jahre SEO-Erfahrung in Agenturen wie IBM iX, bei Scholz & Friends, beim Bauer Verlag und als selbstständiger SEM-Agentur Inhaber. Von der lokalen Rechtsanwaltsseite über mittelständische Unternehmen bis zu hin zu Airbus, Siemens, VW Nutzfahrzeuge, Hyundai, AOK und viele deutsche Ministerien etc.
SEO ist für mich immer ganzheitlich und userzentriert. Sie spielt somit in allen digitalen Bereichen eine große Rolle. Von der Strategie, beim Design, im technischen Development und im Marketing. Hierdurch wird SEO nie langweilig und ich lerne jeden Tag noch etwas hinzu.
Mehr Technische SEO