So schließen Sie für Ihre WordPress Seite die Google Crawler Besuche/Indexierungen aus
StartseiteSEO-TippsSo schließen Sie für Ihre WordPress Seite die Google Crawler Besuche/Indexierungen aus
So schließen Sie für Ihre WordPress Seite die Google Crawler Besuche/Indexierungen aus
Ihre Webseite wird regelmäßig von den Crawlern der verschiedenen Suchmaschinen besucht und indexiert und das ist gut so. Denn ohne die Besuche der Crawler und die Indexierungen würde Ihre Seite nicht in den Suchergebnissen auftauchen und könnte nur von Eingeweihten besucht werden. Das ist sicherlich keine erstrebenswerte Situation. Dennoch kann es sein, dass Sie bestimmte Seiten von den Besuchen ausschließen wollen, da sie möglicherweise Ihr Ranking negativ beeinflussen können.
Wie können Sie Besuche und Indexierungen verhindern?
Bereits im Jahr 1994 wurde der Standard entwickelt, mit dem Webseitenbetreiber die Suchmaschinen anweisen können, ob und wie eine Webseite durchsucht werden darf. Heutzutage werden diese Anweisungen in der robots.txt-Datei abgelegt, mit denen Sie den Crawlern der Suchmaschinen den Zugang zu bestimmten Verzeichnissen, Ordnern oder Dateien verwehren können. Diese robots.txt-Datei befindet sich üblicherweise im root-Verzeichnis des Servers. WordPress selbst stellt eine virtuelle robots.txt-Datei zur Verfügung, in der Sie Ihre Beschränkungen aufnehmen können.
Für welche Ordner und Dateien sollte man die Besuche und Indexierungen ausschließen?
Noch vor wenigen Jahren war es allgemein üblich, das /wp-includes/ Verzeichnis, das /wp-admin/ Verzeichnis, das PlugIn-Verzeichnis und einige andere auszuschließen. WordPress hat zudem bis vor Kurzem den Zugang zu JavaScript-Dateien blockiert.
Die verschiedenen Updates des Google-Algorithmus haben jedoch große Veränderungen für die Crawler und ihren Aktionsradius gebracht. Google ist inzwischen dazu übergegangen, die Webseiten komplett wie ein Browser zu rendern und benötigt daher den Zugriff auf die JavaScript- und CSS-Dateien.
Sie sollten daher weder /wp-content/plugins/ noch /wp-includes/ blockieren, da von diesen der JavaScript oder CSS geliefert wird, der für das Rendering erforderlich ist.
Es kann aber durchaus Sinn machen Ordner auszuschließen, die unwichtigen Content enthalten, insbesondere, wenn es hunderte oder gar tausende von Seiten sind. Seiten mit doppeltem Content und Ordner, die Seiten ‘under construction’ enthalten, können auch geblockt werden. Die Reduzierung der Anzahl von Seiten, die nichts zum Mehrwert beitragen, kann für die Crawler Kapazitäten freimachen, um wichtigere Seiten indexieren zu können.
Ist die Verwendung der robot.txt Datei problemlos?
Mit einem Wort: nein. Wenn Sie den Crawlern per ‘disallow’ im robot.txt explizit den Zugang zu einer Seite verwehren, halten sie sich daran. Dennoch kann es vorkommen, dass die Seite im Index auftaucht, da die Seite anderweitig verlinkt ist. Eine Indexierung können Sie nur sicher verhindern, wenn Sie die betreffende Seite mit einem ‘noindex’ Meta Tag versehen. Um diesen zu sehen, muss der Crawler aber Zugang zu der Seite haben, darf also nicht blockiert sein. Von Nachteil ist es auch, wenn von der blockierten Seite externe oder interne Links ausgehen, die bei einer Blockierung nicht erkannt und verfolgt werden können. Sie können somit keine positiven Effekte weitergeben.
Wie ist die Einstellung von Google und WordPress hierzu?
Google hat in den letzten Jahren seine Meinung weiterentwickelt und zieht nun vor, dass Sie so wenig wie möglich blockieren. Dies ist im Interesse größerer Transparenz, und um Google zu zeigen, dass Sie nicht zu Spamseiten und blockierten Seiten verlinkt sind. Um qualitativ minderwertige Seiten von der Indexierung auszuschließen, sollten Sie statt eines Eintrags in der robot.txt Datei lieber auf den betreffenden Seiten einen ‘noindex’-Tag platzieren. Die ideale robots.txt Datei selbst sollte hingegen gar nichts blockieren.
WordPress hält sich weitgehend an die Vorgaben von Google und blockiert lediglich einige JavaScript Dateien. Die WordPress Version 4.4 sollte weitgehend problemlos sein.
Wie können Sie Ihre robots.txt Datei überprüfen und ggf. editieren?
Ihre WordPress robots.txt Datei erreichen Sie entweder über Ihr FTP-Konto des Servers oder Sie können ein PlugIn wie beispielsweise Robots Meta verwenden und die Datei über das WordPress Dashboard editieren und falls nötig entrümpeln.
Fazit
Die rasante Entwicklung der Suchmaschinen-Algorithmen und der Fokus auf mehr Transparenz hat die Verwendung der robot.txt Datei grundlegend geändert. Google selbst empfiehlt, statt Teile Ihrer Webseite per robot.txt abzuschotten, die Verwendung von ‘noindex’ Meta Tags direkt auf den Seiten zu platzieren, die nicht indexiert werden sollen. Besucht und gecrawlt werden sie zwar, was den ausgehenden Links zugutekommt, aber Sie können sicher sein, das diese Seiten nicht indexiert werden und somit nicht in den Suchergebnissen auftauchen.