6.12.2007

Crawlfehler verhindern mit .htaccess und Apache

Wer die Google Webmaster Tools zur Überwachung seine Suchmaschinencrawls und Indexanalyse nutzt, wird sich schon oft über Meldungen, wie "Seite konnten nicht gefunden werden", geärgert haben. Mit unter kommen falsche Verweise auf die eigene Webseite von anderen Webseiten und nicht von der eigenen. Anscheinend crawlt Google sogar Seiten, die im Google Webprotokoll erscheinen und wenn man dann einen Tippfehler hat, kann diese auch schon mal aufgenommen werden.

Wie nun mit den 404ern umgehen? Eine einfache und wirksame Methode, nicht existente Seitenaufrufe trotzdem mit Inhalt zu versorgen, ist die Auslieferung der Startseite bei HTTP-Fehlern mit angepassten Fehlerseiten. Dazu muss man in der .htaccess-Datei im Basisverzeichnis der Webseite folgende Zeilen hinzufügen:

  1. ErrorDocument 400 /index.html
  2. ErrorDocument 401 /index.html
  3. ErrorDocument 402 /index.html
  4. ErrorDocument 403 /index.html
  5. ErrorDocument 404 /index.html
  6. ErrorDocument 500 /index.html

Man sollte das Slash vor der Datei nicht vergessen, da sonst die Seite nicht gefunden wird. Natürlich kann man auch weitere Fehlercodes der 400er und 500er-Blöcke, insofern benötigt, abdecken.

Kommentare

Man sollte auf den weitergeleiteten Seiten jedoch die Fehlercodes nicht verschlucken und mitteilen, dass ein HTML-Fehler “gefangen” wurde und den entsprechenden Header setzen. Ansonsten sehen Suchmaschinen diese Seiten gerne als eigenst√§ndige Seiten mit gleichem Inhalt an und das ist nicht gerne gesehen.

Hinterlasse einen Kommentar

Dein Kommentar:

Kategorien