Google Sitemaps: Warum muss es ein proprietäres Format sein?

5. Juni 2005 von Wolfgang Sommergut

Webmaster sollen dem Google-Web-Crawler das Leben leichter machen und zu diesem Zweck Google Sitemaps anlegen. Der Googlebot müsste sich für diverse Metadaten dann nicht mehr durch den HTML-Markup-Salat wühlen, sondern könnte sie bequem aus einem XML-Dokument entnehmen. Dazu zählen Informationen über das letzte Update einer Seite, über ihre Priorität im Vergleich zu anderen Dokumenten oder die Häufigkeit, mit der bestimmte Seiten verändert werden. Für diese Daten schlägt Google ein eigenes XML-Sitemap-Format vor. Aber muss das sein?

Sieht man sich die Struktur einer solchen Sitemap an, dann fällt die Ähnlichkeit mit RSS auf. Was hier ein <channel> ist, dem entspricht dort ein <urlset>, einem <item> steht ein <url> gegenüber und statt eines <link> gibt es dort ein <loc>. Diese Übereinstimmung ist kein Zufall, denn beide Formate leisten Ähnliches: Sie beschreiben Dokumente. Auch das Sitemap-Format ist „flach“ in dem Sinn, dass es keine rekursive Strukur zulässt, die den hierarchischen Aufbau einer Site abbilden könnte.

Warum Google daher ein eigenes Format erfinden musste, kann ich nicht verstehen. Immerhin gilt RSS mittlerweise als HTML für Daten. Man könnte höchstens einwenden, dass RSS keine Entsprechungen zu <priority> oder <updatefreq> bietet. Aber dieser Einwand lässt sich leicht entkräften: RSS 1.0 und RSS 2.0 können mit Hilfe von XML Namespaces unkompliziert erweitert werden. Wie das geht, zeigt etwa Amazons A9 mit OpenSearch. Wenn es Google als Marktführer schafft, sein Sitemap-Format populär zu machen, dann dürften die anderen Suchmaschinen es auch bald nutzen und Site-Betreiber unnötigerweise mit einem weiteren XML-Format zur Beschreibung seiner Dokumente beglücken.

Kategorie: RSS, Suchmaschinen, XML 5 Kommentare »

5 Antworten zu “Google Sitemaps: Warum muss es ein proprietäres Format sein?”

  1. Da war bestimmt jemand am Werk der XSLT Wissen unter die Menschheit bringen will . Mit ein paar Zeilen sollte sich ein RSS stream in eine Google Sitemap umwandeln lassen (nachdem man mit einem Namespace die fehlenden Elemente „nachgeruestet“ hat – ist nicht im Dublin Core alles drin?).
    My 2c
    ;-) stw

  2. Laut Google werden sowohl RSS 2.0, Atom 0.3, OAI-PMH 2.0 als auch eine einfache ASCII-Liste unterstützt.
    So steht es zumindest unter der URL https://www.google.com/webmasters/sitemaps/docs/de/faq.html nachzulesen (siehe Punkt 8 und 9).
    Grüße
    Thomas

  3. Thomas, das habe ich auch gelesen :-) Allerdings hat man dort nicht die Unterstützung für <priority> und <updatefreq>. Diese Elemente hätte Google einfach zu RSS hinzufügen können. Ein eigenes Format zu erfinden war meines Erachtens nicht nötig.

  4. Wenn schon, dann hätte Google konsequenterweise wohl ATOM nehmen sollen. ATOM haben sie ja bewusst als Konkurrenz zu RSS gewählt, was RSS natürlich kaum hilft – ausser als Motivation, sich noch mehr zu verbessern.
    Es gibt aber schon Gründe, einen eigenes Schema für XML zu verwenden: News, bzw. Site-Summaries sind nun nun mal nicht dasselbe wie Sitemaps. Und wie du suggerierst: Wenn schon, dann müsste die hierarchische Struktur im Format expliziter abgebildet sein.
    Wie auch immer: Im Gegenzug könnte man nun ja ein RSS-Sitemap-Format den G..gle-Mitbewerbern vorschlagen?

  5. Ich habe vor einigen Tagen eine Google Sitemap für einen Webshop erstellt, der ein relativ unveränderliches Warenangebot hat (Hochdruckreiniger ähnlich wie Kärcher, Zubehör, Ersatzteile, http://www.cleaning-parts.com/ ).
    Die XML-Fassung der Sitemaps erfordert Informationen, die für diese Art der Anwendung einfach nicht nötig sind, wie zum Beispiel die Priorisierung der einzelnen Seiten untereinander oder die Angabe eines Veröffentlichungsdatums. Ich bin daher bei der einfachen Variante geblieben, die Sitemap als eine Liste von URLs per Textdatei einzureichen.
    Google hat diese Datei innerhalb von wenigen Stunden abgeholt und die angeführten URLs bald darauf abgegrast.
    Die Erstellung der Textdatei war mit Open Office Calc einfach zu erledigen.
    Im Detail steht das dann hier: http://awasteofwords.com/article/google-sitemaps-fuer-webshops
    Es muss also nicht immer eine Datenbank- oder PHP-Skript-Lösung sein, die guten alten Handwerkzeuge reichen auch ;-)