Sitemap und Robots.txt nutzen

Im Rahmen von Suchmaschinenoptimierungen (SEO = Search Engine Optimization) fallen auch immer wieder Begriffe, wie z.B. „Sitemap“ oder „Robots.txt“. Was ist mit diesen Begriffen gemeint? Sind diese Sachen denn wirklich so wichtig? Muss ich mich als Blog-Betreiber damit auseinandersetzen und beschäftigen?

Grundlegendes

Suchmaschinen wie Google funktionieren bekanntlich nach allerlei automatisierten Algorithmen mittels derer sie Webseiten „crawlen“ (ja, so nennt man das, wenn eine Suchmaschine eine Webseite „durchforscht“ nach Änderungen, Links, Keywords und dergleichen). Google und Co. sind tagtäglich damit beschäftigt zig Millionen Webseiten zu crawlen, darunter einige altbekannte, aber auch eine Reihe gänzlich neuer Webseiten, die gerade erst das Licht der Welt erblickt haben.

Au fein, dann brauche ich ja nichts weiter tun, wenn ich gerade ein neues Blog gestartet habe – ich warte einfach bis Google von selbst vorbeischaut und mich registriert!

Sicher, das ist eine Möglichkeit.
Aber eine langwierige.
Es kann Wochen oder Monate dauern, bis Google „von selbst“ auf eine neue Webseite oder ein neues Blog aufmerksam wird.

Viel schlauer wäre es doch, wenn man Google einfach Bescheid sagt, dass man da ist 😉

Und das geht so:

Sitemap

Eine Sitemap ist im Grunde genau das, was der Name aussagt:
Site = Seite, map = Karte, also eine „Seitenkarte“, eine „Übersichtskarte“ über alle Seiten, die innerhalb Ihres Internetauftritts existieren.
Solch eine Sitemap dient dazu, Google und anderen Suchmaschinen sozusagen eine „Übersicht“ über alle URLs zu geben, die innerhalb Ihres Webauftritts gecrawlt werden können.

Solch eine Sitemap liegt als XML-Datei vor. Sie erlaubt es einem Webmaster zusätzliche Informationen zu einzelnen URLs mit anzugeben, z.B. wann sie zum letzten Mal upgedatet wurde oder als wie wichtig die Suchmaschine die URL im Vergleich zu anderen URLs der Seite betrachten soll.

Im Grunde ist es nun so, dass man eine solche Sitemap erstellt und Google über diese Sitemap informiert. Mit WordPress ist solch eine Sitemap wirklich super einfach erstellt, ja die Erstellung kann sogar komplett automatisiert werden. Auf diese Weise liegt dann wirklich immer eine aktuelle Sitemap vor, was für Google und andere Suchmaschinen natürlich besonders „angenehm“ ist. Bevor wir uns damit jedoch konkreter beschäftigen, sollte man sich zunächst einen Google Webmaster-Tools Account einrichten. Allein schon durch hinzufügen des eigenen Blogs innerhalb des eigenen Webmaster-Tools Accounts, haben Sie Google sozusagen Bescheid gesagt, dass Ihr Blog existiert. Das ist gleichbedeutend mit einem Auftrag an den Google-Bot, Ihrem Blog einen Besuch abzustatten. Nutzen Sie jetzt noch eine Sitemap und geben diese dem Bot „in die Hand“, so kann er sich mithilfe dieser „Orientierungskarte“ schneller und besser zurechtfinden.

Wie erstellen Sie jetzt eine XML-Sitemap in Ihrem WordPress-Blog?

Das Schöne bei WordPress sind u.a. die vielfältigen Plugins. Zur Erstellung einer eigenen XML-Sitemap brauchen Sie nur das richtige Plugin, müssen dies einmal installieren und einrichten – und fertig. Den Rest erledigt das Plugin dann komplett eigenständig!

Ich nutze zur Erstellung meiner XML-Sitemap das Plugin „Google (XML) Sitemap Generator“.

Dieses Plugin bietet vielfältige Einstellungsmöglichkeiten. Sie reichen von der Einstellung, welche Suchmaschinen über Änderungen an Ihrem Blog informiert werden sollen (Google, Yahoo!, Ask.com, Bing), bis hin zu wie oft welche Bereiche Ihres Blogs aktualisiert werden sollen bzw. welche Prioritäten bestimmte Bereiche Ihres Blogs haben. Die Sitemap wird dabei regelmäßig und automatisch angelegt bzw. aktualisiert. Erstellen Sie also z.B. einen neuen Blog-Artikel – keine Sorge, die Sitemap wird automatisch aktualisiert. Wenn das nächste Mal der Google-Bot vorbeikommt, findet er den neuen Artikel mittels seiner aktuellen „Orientierungskarte“.

Ist solch eine Sitemap erstellt (den Pfad kann man bei dem Plugin frei wählen, jedoch sollte die Sitemap für gewöhnlich direkt im Hauptverzeichnis liegen, also unter der URL zu finden sein), dann sagen Sie Google in den Webmaster-Tools noch schnell Bescheid, indem Sie dort den Pfad zu Ihrer Sitemap angeben. Hier ein Screenshot von meinem Webmaster-Tools Account, wo ich die URL meiner Sitemap angegeben habe.

Wie Sie sehen, können Sie also mittels einer Sitemap den Suchmaschinen helfen. Sie zeigen den Suchmaschinen im Grunde mittels einer „Orientierungskarte“, was es auf Ihrem Blog alles gibt.

Moment mal… alles?

Also so richtig wirklich ALLES?

Das wollen Sie doch gar nicht!

Robots.txt

Und hier kommt die „robots.txt“-Datei ins Spiel. So wie eine Sitemap den Suchmaschinen zeigt, was Sie alles crawlen können, sagen Sie den Suchmaschinen mittels Robots.txt, was Sie NICHT crawlen dürfen.

Wozu ist das wichtig? Ist doch schön, wenn wirklich alles in den Suchmaschinen registriert wird. Immerhin wird man dann schön gefunden…

Tja, nicht ganz. Denn:
Zu viel kann auch schaden!

Was Google & Co. nämlich überhaupt nicht mögen, ist doppelter (oder dreifacher, vierfacher…) Content (Inhalt)! Solch doppelter (dreifacher, vierfacher…) Content kann – gerade bei Blogs – jedoch schnell (ungewollt) entstehen. Erstellt man nämlich beispielsweise einen Artikel, dann wird dieser einmal „regulär“ unter einer bestimmten URL gespeichert. Aber er taucht auch innerhalb einer bestimmten Kategorie auf. Und innerhalb bestimmter Tags. Und im Archiv. Und…

Sehen Sie?
Doppelter, dreifacher, vierfacher oder wasweißichwievielfacher Content – ungewollt! Einfach so!

Natürlich kann man dem ein Stück weit durch die Erstellung einer Sitemap Abhilfe schaffen. Unter dem oben erwähnten Plugin, können Sie beispielsweise einstellen, dass Kategorien-Seiten und dergleichen NICHT in die Sitemap mit aufgenommen werden sollen. Trotzdem kann es passieren, dass Google-Bots & Co. nach einiger Zeit „von selbst“ auf diese Bereiche Ihres Blogs stoßen – und diese dann indexieren.

Um das zu verhindern, brauchen Sie eine Robots.txt. Dort sagen Sie den Suchmaschinen-Bots also, wo Sie überall NICHT rumschnüffeln sollen. Auch nicht zufällig. Sie „schließen“ sozusagen bestimmte Türen in Ihrem Webseiten-Haus „ab“.

Eine Robots.txt-Datei kann z.B. so aussehen:

sitemap:  User-agent: * Disallow: /cgi-bin/ Disallow: /cgi-data/ Disallow: /empfiehlt/ Disallow: /flowplayer/ Disallow: /greybox/ Disallow: /images/ Disallow: /restore/ Disallow: /testimonials/ Disallow: /wochen/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /author/ Disallow: /page/ Disallow: /category/ Disallow: /wp-images/ Disallow: /backup/ Disallow: /banners/ Disallow: /archives/ Disallow: /trackback/ Disallow: /feed/ Disallow: /wp-images/ 

Das ist meine Robots.txt.

Wie Sie sehen, können Sie alle möglichen Bereiche Ihrer Webseite „abschließen“, damit keine Suchmaschinen-Bots mehr durch bestimmte „Türen“ gehen können. So verhindern Sie einerseits mehrfachen Content, andererseits aber auch, dass z.B. Mitglieder-Bereiche von Suchmaschinen indexiert und allen in organischen Suchergebnissen offen dargeboten werden können. Auch der WordPress-Admin-Bereich oder der Ordner, in dem ich meine Empfehlungen speichere, können ausgeschlossen werden. Suchmaschinen haben hier nix zu suchen 😉

Beachten Sie bitte, dass in der ersten Zeile der genaue Pfad zu meiner Sitemap angezeigt wird. In Kombination aus beidem – der Sitemap UND der Robots.txt – ergibt sich für die Suchmaschinen-Bots ein perfektes „Rundum-Bild“ meines Blogs.

Haben Sie selbst einen Blog, dann richten Sie sich solch ein Sitemap-Plugin ein und erstellen Sie eine Robots.txt. Letzteres ist eine einfach *.txt Datei, in der der obige Text geschrieben wird und die ins Hauptverzeichnis Ihres Blogs geladen wird (d.h. http://www.IhreDomain.de/robots.txt).

Auf diese Weise werden sicherlich auch Sie mit Ihrem Webauftritt schneller und besser in Suchmaschinen gefunden und gelistet 🙂

Ich wünsche viel Erfolg dabei
Ihr Gordon Kuckluck

Gordon Kuckluck

Initiator von GeldSchritte.de, Online-Marketer mit Leib und Seele, vor allem den Bereichen Landingpages, Conversionoptimierung und E-Mail-Marketing verschrieben, stets an der Schnittstelle von Offline- zu Online-Business.
About The Author

Gordon Kuckluck

Initiator von GeldSchritte.de, Online-Marketer mit Leib und Seele, vor allem den Bereichen Landingpages, Conversionoptimierung und E-Mail-Marketing verschrieben, stets an der Schnittstelle von Offline- zu Online-Business.

2 Comments

  • Bernd

    26. Oktober 2010

    Hallo Gordon,
    sehr guter Beitrag!
    Also ich stelle immer noch impressum und übermich o.ä in die robot.txt.! Es muss ja nicht jeder meine Adresse oder Telefonnummer sehen können.

    Aber man muss auch noch eins beachten:
    Manchmal will man ja google auch davon abhalten, dass er einem Link folgt.
    Dafür gibt es ein rel. neues HTML-Befehlsattribut. Näheres steht in meinem Blog-Artikel:

    Gruß
    Bernd

    • Gordon Kuckluck

      26. Oktober 2010

      Hallo Bernd
      und danke für die sinnvollen Ergänzungen! 🙂
      Liebe Grüße
      Gordon