RSS - Inhalte über XML austauschen
Autor: Sven Przepiorka
Veröffentlichung: 22.04.2006
RSS erlaubt sowohl den Austausch von Inhalten zwischen verschiedenen Websites als auch die Übernahme von fremden Inhalten auf einer anderen Website. Zahlreiche Content-Management-Systeme bieten mittlerweile die Möglichkeit, automatisch RSS-Dateien zu generieren. Dadurch wird eine einfache Content-Syndication nicht nur im Internet sondern auch zunehmend in Intranets ermöglicht.
Definition
RSS ist ein plattform-unabhängiges und auf XML basierendes Format zum Austausch von Inhalten aller Art. Die Abkürzung RSS hat im Laufe der Zeit unterschiedliche Interpretationen erfahren, von Rich Site Summary oder RDF Site Summary bis zu Really Simple Syndication. Trotz der verschiedenen Erklärungen geht es bei RSS immer darum, Informationen auf den Inhalt zu reduzieren, logisch gekennzeichnet in einer Datei abzulegen und sie für die automatisierte Verarbeitung durch RSS-Leseprogramme, sogenannte Aggregatoren, bereitzustellen. RSS wurde zunächst geschaffen, um Inhalte von Internetportalen zu verbreiten. Inzwischen hat es sich zu einem weit verbreitetem Standard für den automatisierten Austausch von Inhalten entwickelt. Neben Millionen von privaten Weblogs werden RSS-Dateien mittlerweile selbst bei populären Websites wie BBC, New York Times, Spiegel Online oder tagesschau.de erfolgreich eingesetzt.
Geschichte
Auf Grund seiner abwechslungsreichen Entwicklungsgeschichte sind für RSS im Laufe der Jahre unterschiedliche Versionen entstanden:
- RSS 0.90 wurde ursprünglich 1999 von Netscape entwickelt, um Nachrichten ihres MyNetscape-Portals an die Nutzer ihres Web-Browsers zu übermitteln.
- RSS 0.9x wurde von UserLand Software definiert, als Netscape die Weiterentwicklung von RSS wegen des Mißerfolgs seines Portals aufgegeben hatte. Als Anbieter einer damals sehr populären Weblog-Software plante UserLand von Beginn an, den Standard als Basis für ihre Software einzusetzen.
- RSS 1.0 wurde schließlich unabhängig von Netscape oder UserLand von der nicht-kommerziellen RSS-DEV Working Group ausgearbeitet. Dieses Format basiert hauptsächlich auf den Richtlinien von RSS 0.9 und dem W3C-Standard RDF (Resource Description Framework).
- RSS 2.0 wurde von UserLand Software als Weiterentwicklung von RSS 0.9x veröffentlicht, nachdem das Unternehmen RSS 1.0 nicht als Standard akzeptierte.
Zur Zeit existieren die beiden Standards RSS 1.0 und 2.0 nebeneinander. Dies stellte jedoch kein Problem dar, da die meisten Feed-Aggregatoren sowohl beide als auch die älteren 0.9x Versionen problemlos lesen können. Allerdings ist bereits mit Atom ein neues Format in Arbeit, das die Teilung irgendwann in der Zukunft wieder aufheben soll.
Push vs. Pull
Um die Funktionsweise von RSS-Dateien verstehen zu können, muss man zunächst die unterschiedlichen Mechanismen der Hol- (Pull) und Bringschuld (Push) im Internet kennen.
In der Regel besucht jeder Internet-Nutzer täglich mehrere Webseiten mit redaktionellen Inhalten wie beispielsweise Spiegel Online, Stern oder das Handelsblatt. Hinzukommen zahlreiche nicht kommerzielle Seiten wie Weblogs. Jedes Mal tippt der Internet-Nutzer dabei URL für URL in seinen Browser ein oder er lässt sich von Link zu Link durch das WWW leiten, indem er diese anklickt. Bei beiden Methoden ist der Internet-Nutzer aktiv und er holt sich Daten und Inhalte auf seinen eigenen Rechner. Dieser aktive Prozess der Benutzer wird in der Regel als Holschuld bzw. das Pull-Prinzip bezeichnet. Die folgende Abbildung soll noch einmal das im Internet herrschende Pull-Prinzip verdeutlichen. Der Internet-Nutzer steht in der Mitte zahlreicher Websites, die er regelmäßig aktiv besucht.
Auch wenn diese Form von Informationsbeschaffung funktioniert, ist sie auf Dauer in keiner Weise praktikabel. Denn im Laufe der Zeit wächst häufig die Anzahl der regelmäßig besuchten Webseiten so stark an, dass es immer mehr Zeit kostet, noch alle im Überblick zu behalten. Verstärkt wird dieser Effekt noch dadurch, dass zusätzlich immer mehr Zeit aufgebracht werden muss, um die URLs in immer umfangreicher werdenden Bookmarksammlungen zu verwalten. Stellt dann noch der Internet-Nutzer fest, dass sein Besuch von Websites wegen fehlenden neuen Informationen umsonst gewesen ist oder dass er auf Grund seiner seltenen Besuche wichtige Informationen verpasst hat, so steigt zudem der Frustfaktor deutlich.
Sicherlich gibt es dafür Lösungsansätze, wie beispielsweise die Websites blo.gs oder blogg.de, die dem Internet-Nutzer ein wenig helfen können. Bei jenen Websites werden nämlich andere Webseiten nach ihrer Aktualisierung chronologisch aufgelistet. So kann jeder schnell feststellen, ob und wann eine Aktualisierung bei einer bestimmten Webseite eingetreten ist. Doch auch hier zeigen sich bei steigender Anzahl von gelisteten Webseiten einige Probleme. Zum einen dauert das Aufspüren der Webseiten, die man beobachten will, immer länger. Und zum anderen dauert das Indizieren der Webseiten auf Server-Seite ebenfalls immer länger, so dass die Liste der Aktualisierungen keineswegs mehr bei ihrer Veröffentlichung aktuell sein muss. Bekannte Angebote wie weblogs.com sind gute Beispiele dafür, dass dieser Ansatz auf Dauer bzw. ab einer gewissen Größe meistens zum Scheitern verdammt ist.
Ein anderer Lösungsansatz wurde schon vor einigen Jahren von Netscape und Microsoft beschritten. Der Anbieter einer Webseite informiert selbst darüber, dass sich seine Seite geändert hat. Dazu stellt er eine Datei ins Netz, die der Internet-Nutzer mit Hilfe der Standardprotokolle seines Browsers oder einer anderen internet-fähigen Software abrufen kann und die ihn informiert, ob sich die Seiten geändert haben und welcher neu hinzugefügter Inhalt nun nachgelesen werden kann. Diese Form von Übermittlung neuer Informationen gleicht einer Bringschuld, welche in der Informatik oft auch als Push-Prinzip bezeichnet wird.
Wiederum soll das Prinzip anhand einer Abbildung erläutert werden. Der Internet-Nutzer steht erneut in der Mitte zahlreicher Website. Doch diesmal erhält er die Inhalte automatisch von den drei aktualisierten Websites. Die anderen Websites ohne Aktualisierungen rücken dabei nicht mehr in seinen Wahrnehmungskreis. Der Internet-Nutzer kann dadurch allein die neuen Inhalte komplett und gezielt wahrnehmen.
Natürlich macht das Beziehen von Inhalten mehrerer Websites nur dann Sinn, wenn man mehr als nur 10 Websites verfolgt. Ansonsten kann man nämlich die wenigen Websites auch wie gewöhnlich per WWW-Browser und der darin enthaltenen Bookmarkliste verfolgen, denn der Zeitvorteil gegenüber einem RSS-Aggregator ist in diesem Fall ziemlich klein. RSS-Aggregatoren spielen ihren Vorteil erst dann aus, wenn mehrere Resourcen, wie beispielweise bis zu 200 Websites, im Auge behalten werden sollen.
Beispiel einer RSS-Datei
Die Idee hinter einer RSS-Datei ist denkbar einfach: Alle wichtigen aktuellen Hinweise auf neue Inhalte einer Website werden in einer Datei zusammengefasst. Dabei wird jedoch nicht, wie bereits erwähnt, die Auszeichnungssprache HTML, sondern stattdessen die Sprache RSS verwendet, die wiederum auf XML basiert und genau für den Austausch von Inhalten ausgelegt ist. Dadurch wird u.a. auch erreicht, dass RSS-Dateien im Gegensatz zu HTML-Seiten sehr logisch und ohne zusätzlichen Balast in Form von Design- und Layout-Elementen auskommt. So können RSS-Dateien plattformunabhängig gelesen und weiterarbeitet werden. In den meisten Fällen ist eine RSS-Datei an der Endung .xml oder .rss erkennbar.
Anhand einer RSS 2.0-Datei soll nun die Struktur einer solchen Datei erläutert werden.
In RSS 2.0 werden alle Bestandteile in einem <channel>-Abschnitt definiert. Er enthält zunächst den Titel (<title>), die Beschreibung (<description>) und den Verweis (<link>) auf die URL der Website. Erweiterte Angaben wie zum Copyright, dem Datum der letzten Aktualisierung sowie zur eingesetzten Software sind zudem optional möglich.
Danach folgen die einzelnen aktualisierten Inhalte der Website, die jeweils mit <items> entsprechend markiert werden. Durch die gleichnamigen Abschnitte, durch die bereits der Ursprung der RSS-Datei bezeichnet wurde, werden nun auch die Inhalte näher beschrieben. Dazu gehören der Titel, ein Verweis auf den Inhalt und ein kurzer, unformatierter Beschreibungstext. Desweiteren kommen Elemente für das Datum der Änderung (<pubDate>), die eingeordneten Kategorien (<category>) und die eindeutige Identifikation (<guid>). Als Ergänzung zum <description>-Element kann auch noch ein <content:encoded>-Element hinzugefügt werden, in dem beliebig formatierte HTML-Daten abgelegt werden können. Dazu muss jedoch in der Kopfzeile der RSS-Datei das ergänzende Content-Modul angegeben werden.
Module und damit die beliebige Erweiterbarkeit des Formats sind der größte Vorteil von RSS 2.0 gegenüber den Versionen seiner Vorgänger. Denn mit Hilfe der Module können RSS-Dateien fast alle Arten von Daten transportieren. Autor und Leser müssen nur dieselben Module benutzen können. Der Autor gibt im Kopf der Datei die verwendeten Module an, der Aggregator kann diese dann bei der Auswertung verwenden. Falls aber die Module unbekannt sind, so werden sie einfach ignoriert. Neue Module und damit Inhalte können so schrittweise eingeführt werden, ohne dass sofort alle Leseprogramme ausgetauscht werden müssen. Ein häufig eingesetztes Modul ist neben dem bereits genannten Content-Modul beispielsweise das Modul Dublin Core. Dessen zugeordneten Elemente sind am vorangestellten "dc:" erkennbar und helfen weitere Metadaten wie das Erstellungsdatum (<dc:date>) über die gelieferten Inhalte zu formulieren. Ein weiteres interessantes Modul heißt iTunes. Es erweitert RSS-Dateien, so dass darüber auch Audio-Inhalte, sogenannte Podcasts, ausgetauscht werden können.
In RSS-Dateien können theoretisch beliebig viele Inhalte platziert werden. Im Interesse der Überschaubarkeit und der Übertragungszeiten sollten jedoch eher 15 Elemente das Maximum sein.
RSS-Dateien lesen
RSS-Dateien werden meistens durch einen orangenen Button mit der Aufschrift XML oder RSS gekennzeichnet: Ein Klick auf dieses Symbol führt dann direkt zu der RSS-Datei. Alternativ kann die Verknüpfung auch per Hand in einen RSS-Aggregator eingetragen werden, der dann die RSS-Datei optisch aufbereitet und schließlich auch gut lesbar anzeigt.
Für RSS-Aggregatoren gibt es viele unterschiedliche Varianten. Die Anwendungen reichen von webbasierten Anbietern wie Bloglines, über Erweiterungen zu den jeweiligen Browsern, bis hin zu normalen Desktopanwendungen wie etwa FeedDemon.
Alle Aggregatoren haben ein sehr ähnliches Layout gemeinsam. Auf der linken Seite werden alle individuell abonnierten RSS-Dateien aufgelistet. Gleich dahinter steht jeweils die Zahl der ungelesenen Artikel. Auf der rechten oberen Seite finden sich die chronologisch eingeordneten Überschriften zur ausgewählten RSS-Datei. Wird eine Überschrift angeklickt, erscheint darunter in einem weiteren Fenster der Inhalt, der durch die RSS-Datei übermittelt wurde. Je nach Absicht der Autoren kann dieser unterschiedlich viele Daten enthalten. Manche RSS-Dateien, speziell die von Agenturen und Verlagen, enthalten nur einen Verweis auf die entsprechenden Webseiten. Die meisten RSS-Dateien geben dagegen einige Zeilen aus dem Inhalt an, um dem Leser die Entscheidung leichter zu machen, ob ein Beitrag interessant sein könnte. Einige Autoren sehen RSS-Dateien sogar als vollkommen gleichwertig zu den HTML-Fassungen an und veröffentlichen die kompletten Beiträge.
Gegenüber herkömmlichen Bookmarklisten überprüft der RSS-Aggregator in frei einstellbaren zeitlichen Abständen alle eingetragenen RSS-Dateien auf neue Inhalte. Sofern er neue Einträge findet, werden diese in die Feed-Liste eingetragen und optisch hervorgehoben.
Durch spezielle Filter lassen sich zudem alle bereits abgerufenen Inhalte in neue, individuelle Zusammenhänge einordnen. So werden immer nur die Inhalte angezeigt, die einem gerade nützlich erscheinen.
Vorteile
RSS-Dateien bieten eine Reihe von Vorteilen gegenüber Mailing-Listen oder Newsboards:
- Die aktuellen Überschriften und teilweise auch die Inhalte mehrerer Websites können in einem Tool angezeigt und gelesen werden.
- Die eingetragenen RSS-Dateien werden durch eine automatische, periodische Überprüfung auf neue Einträge untersucht.
- Es besteht eine hohe Zeitersparnis, da keine manuelle Überprüfung von Websites nach neuen Inhalten mehr notwendig ist.
- Es wird nur auf die jeweils neu hinzugekommenen Inhalte einer Website hingewiesen.
- Die Anzeige und Überprüfung alter Inhalte kann durch den Internet-Nutzer vermieden werden.
- Gleichzeitig ist aber auch die automatische Archivierung alter Inhalte auf einfache Art und Weise möglich.
- Im Gegensatz zu einer Website stören keine Grafiken, Banner oder fehlende Usability das Lesen der eigentlichen Inhalte.
- Bei nicht pauschal abgerechneten Internetverbindungen entsteht ein hoher Kostenersparnis, da insgesamt weniger Daten übertragen werden und zudem nach der Aktualisierung der RSS-Dateien die meisten Meldungen auch offline gelesen werden können.
- In einem RSS-Aggregator kann mit Hilfe von Filtern eine Art personalisierte Zeitung individuell zusammengestellt werden, die sich an den Bedürfnissen des Lesers orientiert.
- Es ist für das Auslesen der RSS-Dateien nicht zwingend notwendig, E-Mail-Adressen oder sonstige persönliche Daten auf einem fremden Server zu hinterlassen.
- Jeder Internet-Nutzer entscheidet für sich alleine, welche Inhalte er regelmäßig lesen möchte. Er muss dabei niemanden um Erlaubnis bitten.
- Die meisten RSS-Aggregatoren sind kostenlos.
Fazit
Immer mehr Websites nutzen die Vorteile von RSS-Dateien. Neben den zunächst rein textbasierten Inhalten kommen weitere neue Inhalte wie Podcasts (Audio) oder vLogs (Video) hinzu. Selbst kommerzielle Anbieter wie eBay bieten mittlerweile RSS-Dateien an, mit deren Hilfe sich beispielsweise die Versteigerung eines Gegenstands im RSS-Aggregator leicht überwachen lässt. Auch das regelmäßige Abrufen von Suchergebnissen und den darin enthaltenen Änderungen wird von den drei größten Suchmaschinen Google, Yahoo und MSN Search bereits unterstützt. Auf Dauer erleichtern sie so die Arbeit von jedem Internet-Nutzer. Durch die maschinelle Auswertung von RSS-Dateien wird in naher Zukunft sogar die Möglichkeit bestehen, direkte Preisvergleiche durchzuführen.
Jedoch steht die Kommerzialisierung von RSS erst noch am Anfang. Die Potenziale und Möglichkeiten sind noch lange nicht ausgeschöpft. Die kurzen Beispiele zeigen aber schon, dass in Zukunft der Internet-Nutzer bei seinen Routine-Aufgaben immer mehr durch RSS-Dateien und -Aggregatoren unterstützt werden wird. Selbst über die feste Integration und Nutzung des RSS-Formates innerhalb der Betriebssysteme wird laut nachgedacht bzw. sogar bei Microsoft Vista sogar schon umgesetzt.
Neben XHTML, was eigentlich nur eine geringe Weiterentwicklung gegenüber HTML gewesen ist, hat sich RSS zum erfolgreichsten XML-basierenden Format entwickelt.
Weiterführende Literatur
-
Newsfeeds mit RSS und Atom (Juni 2005)
von Heinz Wittenbrink
299 Seiten - Galileo Press - ISBN 3898425622
