Wieviele tote Links enthält Ihre Website?
15. April 2005 von Wolfgang Sommergut
Als Web-Autor lässt man die nötige Sorgfalt walten beim Verweisen auf andere Seiten, richtig? Ein Link-Checker sollte daher auf der eigenen Site nur eine Handvoll toter Links finden, weil die eine oder andere Seite nicht mehr erreichbar ist. Schließlich gilt ja: Cool URIs don’t change. Aber die Realität sieht anders aus.
Auf der Suchmaschinenkonferenz von Jupitermedia hatte ein Referent den Link-Checker Xenu empfohlen. Es handelt sich dabei um ein Windows-Programm, das wie ein Suchmaschinen-Spider eine beliebige Site rekursiv durchläuft und dabei alle Links auf ihre Gültigkeit überprüft. In meinem Blog befinden sich bis dato etwas mehr als 400 Beiträge, Xenu fand darauf 56 tote Links (von insgesamt mehr als 2000 Verweisen).
Betroffen waren nicht nur Links auf andere Blogs, auch wenn mancher Permalink gar nicht so dauerhaft ist. Bei CNet setzen sich URLs u.a. aus Begriffen in der Überschrift zusammen. Ändert sich diese, kann sich das offenbar auf die URL auswirken. Bei der eWeek haben Verweise auf die Printversion von Artikeln eine kurze Halbwertszeit. Unternehmen wie Sun entfernen Seiten zu Produkten, die sie nicht mehr führen. Bei Übernahmen bleibt auch manche URL auf der Strecke, beispielsweise räumte die Gartner Group Studien der aufgekauften Meta Group weg. Alles in allem gibt es wohl ziemlich viele uncoole URLs.
Man kann diese Praxis kritisieren oder das Verschwinden von Ressourcen als Merkmal eines organisch wachsenden Hypertexts akzeptieren. Es bleibt aber die Frage, wie man als Site-Betreiber damit umgehen soll. Irgendwie möchte man ja nicht, dass Besucher toten Links folgen. Das hinterlässt auch einen schlechten Eindruck von der verweisenden Site. Andererseits erfordert die Pflege der ausgehenden Links einige Arbeit. Die Aussicht, mehr als 50 kaputte Verweise zu korrigieren zu dürfen, finde ich unerquicklich.
Kategorie: Content-Management, Tools und Tipps 4 Kommentare »
Da fällt mir eine wöchentliche Computerzeitschrift aus München ein, die alle links in einem CMS-Update kaputtmachte und sie dann ganz wegschloss. :-)
Eine interessante Frage dabei: wann ist ein Link wirklich tot? Dann wenn die Homepage erreichbar ist aber nicht der Link? Eine Idee waere auch ein script das den Link auf die WayBackMachine zeigen laesst (oder wie hiess das Ding mit dem Seitenarchiv gleich noch?)
:-) stw
@Stephan: Angesichts der Ausbeute von Xenu hatte ich auch schon überlegt, ob ich zukünftig nicht besser auf den Google-Cache verlinken sollte :-) Ich weiß bloß nicht, wie lange er die Seiten zwischenspeichert. Bei der Definition von toten Links sind einige Nachrichten-Sites relativ großzügig, indem sie Besucher bei einem HTTP 404 ohne weiteren Hinweis auf die Homepage umlenken – nach dem Motto: Irgendeine Seite von unserem Server wird schon reichen.
@Volker: Da gibt es wohl mehrere, weiß nicht, welche du meinst ;-)
Ich dachte weniger an den Google Cache sondern eher daran:
http://www.waybackmachine.org/
http://www.archive.org/
Die Syntax ist relativ einfach. Wenn eine Seite nicht mehr erreichbar ist packt man
http://web.archive.org/web/*/
davor (dann geht es mit http://.. weiter) und voila alte Seiten leben noch. Ich hab allerdings keine Ahnung was die alles archivieren.
:-) stw