Ein niedersächsisches data.gov?
Vielerorts wird heute das Ziel verfolgt, durch Open Government Data-Programme öffentliche Daten umfassend im Netz zu veröffentlichen. Das klingt aufs erste Hinhören dröge, könnte sich jedoch als wichtiger Beitrag zu einer erneuten Revolutionierung des Webs, last not least aber auch zur Neuerfindung der Medienbranche erweisen. So eröffnet die Stadt Toronto dieser Tage http://www.toronto.ca/open/, nachdem bereits im Frühjahr diesen Jahres die neue US-Regierung mit Hilfe der Sunlight Foundation http://data.gov ins Leben gerufen hatte.
Toronto, die USA und einige weitere (bisher vor allem angelsächsische) Länder verfolgen derartige Open Government Data-Programme. Veröffentlicht werden bisher Daten z.B. von statistischen Ämtern und anderen Regierungsbehörden. Bei der Strategie dieser Programme fallen zwei Merkmale ins Auge:
1. Merkmal: Die Daten werden nicht irgendwie angeboten. Also nicht als “hübsch” gestaltete HTML-Seite, oder vollständige, aber nicht “web-kompatible” Excel-Tabelle. Sondern: Als maschinenlesbare, verlinkbare Daten. Maschinenlesbare wie bitte?
Oberflächlich-technischer Exkurs: Linked Data
Zur webgerechten Darstellung von Daten haben sich unter dem Schlagwort Linked Data einige simple Kriterien etabliert. Das W3C (Entwickler und Hüter grundlegender Webstandards wie HTML und CSS) engagiert sich gerade für die Popularisierung dieser neuen, offenen Standards. Dadurch soll das Web einen entscheidenden weiteren Entwicklungsschritt machen. Im heutigen Web sind lauter HTML-Dokumente, die als Text- oder Multimediaschnipsel irgendwie „für sich“ stehen, miteinander verlinkt. Den Links ist meist nicht anzusehen, welche Beziehung sie ausdrücken sollen.
Im neuen „Daten-Web“, so die Idee, sollen „Rohdaten“ (wie eben beispielsweise Behördendaten), aber auch Repräsentationen von Objekten der realen Welt als eindeutig benannte, verlinkbare Ressourcen im Netz veröffentlicht werden. Eine mögliche Repräsentation dieser benannten Ressourcen können von Menschen lesbare Beschreibungen der jeweiligen Objekte sein, die wie gewohnt als HTML-Seite im Browser erscheinen, wenn die HTTP-Adresse mit dem jeweiligen Namen aufgerufen wird. Wenn der selbe Name jedoch von einem Computerprogramm aufgerufen wird, erscheinen stattdessen vielleicht maschinenlesbare Links, die das Objekt beschreiben. Ein Beispiel: Menschenlesbare Beschreibung der Person Max Planck (nämlich der Artikels über Max Planck in der Wikipedia); menschen- und maschinenlesbare Beschreibungen der Person Max Planck (generiert anhand der Links und Informationen im Wikipedia-Artikel).
2. Merkmal: Die Daten werden unter einer sehr liberalen Lizenz angeboten. Damit werden von vornherein alle Barrieren bei der Nachnutzung der Daten durch Dritte vermieden.
Sinn der Offenlegung ohnehin öffentlicher Daten in neuer, web-gerechter Gestalt sind neuartige, kreative Anwendungen, die mit den Daten arbeiten. Wenn Webentwickler umstandslos auf große Datensets unterschiedlicher Urheber und deren Verknüpfungen zugreifen können, dann eröffnet das mannigfaltige neue Werkzeuge und Umgangsweisen zu diesen Daten. Wir beginnen erst die Spitze des Eisbergs der hier auftauchenden Möglichkeiten zu erkennen.
Von der dummen Stichwortsuche zum Web der sozialen Links – ein globaler Trend
Webmaster wissen davon zu berichten, daß Seitenzugriffe immer häufiger nicht mehr durch Google, sondern durch Dienste wie Twitter und Facebook vermittelt werden. Das ist nur ein erstes Symptom einer tektonischen Plattenverschiebung des Webs: Immer mehr Web-Benutzer weisen sich durch Links laufend auf relevante Ressourcen hin, und stellen Zusammenhänge her, wo vorher keine waren.
Neben der relativ “dummen” Stichwortsuche wird Informationsrecherche wieder zum Stöbern und Entlanghangeln durch einen Wald sozial und zeitlich untereinander verknüpfter Informationen. Das link-freundliche, frei zugängliche Datenweb liefert die passende Infrastruktur dazu.
Technisch denkbar, aber anspruchsvoll wäre eine strukturierte Abfrage, wie wir sie heute aus Datenbanken kennen, für die Gesamtheit aller Informationen im Web. Wie wären die ungeheuren, nur „locker verknüpften“ Datenmengen dafür zu stemmen? Auch solche Visionen werden die Weiterentwicklung des Datenwebs noch eine ganze Weile antreiben.
“Web-Tektonik” und Visionen hin oder her: DBpedia (s. obiger Link) ist bereits zum Kristallisationskern des realen Datenwebs geworden, aber auch Regierungen und Unternehmen fügen dem neuen Web immer mehr Datensets hinzu. Doch wie und warum sollten ausgerechnet öffentliche Einrichtungen daran interessiert sein?
1. Wertvolle Informationen nachhaltig als Rohstoff für die „eigene“ (Medien-)Industrie zur Verfügung stellen
Moderne Industrien, und erst recht die Medienbranche, müssen Informationen heute als einen wichtigen Rohstoff betrachten. Dieser spezielle Rohstoffe kann bekanntlich mehrfach genutzt werden, er wird durch Benutzung nicht knapper. Je mehr davon in möglichst „flüssiger“, anwendbarer Form zur Verfügung steht, desto besser und desto mehr kann damit Neues geschaffen werden. Es wird auf absehbare Zeit immer noch Informationsmärkte geben, die auf einer Verknappung des Rohstoffs Information beruhen – doch der innovative Vorwärtsdrall verlagert sich zunehmend auf die Bits und Bytes, die jeder im Netz haben kann. Siehe Google, um ein offensichtliches Beispiel zu nennen. Und dieser Vorwärtsdrall trifft im Kern die Art, wie Menschen zusammenarbeiten, nämlich wie sie Informationen miteinander teilen und ko-konstruieren. Siehe Wikipedia, um auch hierfür nur das offensichtlichste Beispiel zu nennen.
2. Involvierung ins Datenweb in seiner Entstehungsphase
Zum oben dargestellten Datenweb gehören längst auch Datensets wie OpenCalais vom Medien-Großunternehmen Thomson Reuters. Die Medienbranche kann und wird sich (auch) durch das Datenweb neu erfinden. Das Ausprobieren von öffentlicher Seite verspricht hier impulsgebende Wirkung, gerade in der jetzigen Pionierphase. Innovative neue Anwendungen für das Datenweb entstehen nur durch öffentliches Ausprobieren. Gefragt sind interessante öffentliche Datensets, die das Henne-Ei-Problem des aktiven Einstiegs ins Datenweb überwinden helfen, und natürlich interessante Modell-Implementationen von Anwendungen für das Datenweb.
Disclaimer: Was ich mit dem Thema will
Was ich oben zur Medienbranche sage ist ein Blick von außen. Ich arbeite in einem anderen Bereich: Der Bibliothek. Beim Sammeln, Bereitstellen, Strukturieren und Vermitteln wissenschaftlicher Information (das sind die Prozesse in wissenschaftlichen Bibliotheken) haben wir es mit Informationen zu tun, die meisten von vornherein für die (wissenschaftliche) Öffentlichkeit gedacht sind. Wissenschaftsautoren wollen, daß ihre Forschungsergebnisse möglichst oft gelesen, zitiert oder anderweitig verwendet werden – und sind deshalb oft auch daran interessiert, diese Ergebnisse ohne künstliche Barrieren im Netz zugänglich zu machen. Wenn man die Wissenschaft und ihre Informationen ins Datenweb einzubeziehen versucht, hat man es daher mit anderen Problemen als in der Medienwelt zu tun, in der Bezahlbarrieren zu kommerziell verwertetem Content traditionell eine andere, größere Rolle gespielt haben.
Ein Modellbeispiel für erste Schritte zum Datenweb in der Bibliothekswelt sind Links dieser Art: http://d-nb.info/gnd/118594818 es handelt sich um einen frei zugänglichen, verlinkbaren Normdatensatz zur Person Max Planck – der übrigens auf den o.g. Wikipedia-Artikel zurückverlinkt.
Last not least will ich mit diesem Blogartikel ein neues Diskussionsthema in die AG Enterprise 2.0 einführen, mit der das Wirtschaftsministerium Niedersachsen zusammen mit Medienbranche und Industrie einen niedersächsischen Medienwirtschaftsgipfel im Jahr 2010 vorbereitet.



Interessantes Thema, zu dem sich aktuell in Berlin das Open Data Network gegründet und getroffen hat. Zitat:
Ich wäre für die Gründung einer niedersächschen Open-Data-Network-Filiale zweck Anschubs “cooler Pilotprojekte” zu haben.
[...] sei gespannt, wie sich die Bundesregierung dazu positioniere. OpenData ist ganz klar das Thema der Stunde. Die Vorteile sind zu offensichtlich um übersehen werden zu [...]
Ein niedersächsisches data.gov? http://is.gd/5REjc #opendata
This comment was originally posted on Twitter
[...] beeinflusst oder überhaupt erst ermöglicht werden. Infos zum Reinlesen gibt es z.B. hier von Lambert Heller. Dass sich auch Bibliothekswesen damit beschäftigen müssen, sollte spätestens nach dem [...]