Sacherschließung von Literatur in und mit der Wikipedia — der funktionierende Prototyp LITurgy



Die systematische inhaltliche Erschließung von Literatur könnte und sollte heute besser in der Wikipedia stattfinden, denn die Wikipedia ist ein überlegener Thesaurus, und mit Unterstützung durch automatische Verfahren läßt sich vermutlich ein einfacher gemeinschaftlicher Erschließungsprozeß konstruieren. Diese These hatte ich im letzten Jahr zur Diskussion gestellt, und kürzlich durch Mockups ein wenig anschaulicher gemacht. Magnus Manske, einer der Erfinder der Software MediaWiki, der technischen Basis der Wikipedia, hat nun mit LITurgy den ersten funktionstüchtigen Prototypen für dieses Sacherschließungsverfahren geschaffen.

Zum Ausprobieren von LITurgy (setzt ein eigenes Benutzerkonto bei der Wikipedia voraus) lasse ich Magnus zunächst selbst zu Wort kommen:

Habe ein Demo, das (bei Bedarf) Publikationen aus PLoS abfragt und in eine Datenbank lädt (kann auch von anderen Quellen/mit anderen Methoden geladen werden).

Interface-Demo: Geh zu http://de.wikipedia.org/wiki/Special:MyPage/vector.js und füge die Zeile importScriptURI("http://toolserver.org/~magnus/liturgy/liturgy.js"); hinzu. Dann ein naturwissenschaftliches Thema ansteuern, z.B.: http://de.wikipedia.org/wiki/Ribosomale_RNA

Unter “Literatur” (wird bei Bedarf erzeugt) gibt’s ein StackOverflow-ähnliches Interface.

Was fehlt:

  • Andere Methoden zum Datenbank-Seeding
  • Sicherheit (jeder mit ein wenig Ahnung von JavaScript kann im Moment
    als jeder Wikipedia-Benutzer abstimmen…)
  • Automatische Übernahme der Literatur in den WikiText
  • Noch viel mehr…

Nachtrag: Es scheint, im gegenwärtigen Zustand funktioniert das Tool besser bei “speziellen” Themen als bei allgemeinen. Ein allgemein beschreibendes Paper zu “Krebs” wird eben kaum geschrieben ;-) während die Resultate z.B. zu http://de.wikipedia.org/wiki/Helicobacter_pylori ganz brauchbar ist.

Hinweis: Im Moment zeige ich nur PLoS-Review-Artikel an; Reviews sind normalerweise bessere Referenzen (“reviewed original research”:-) und nicht überspezialisiert. Hält auch die Kandidaten-Liste schön kurz…

Vielen Dank Magnus, du hast diese Idee wirklich greifbar gemacht!

An dieser Stelle ein dezenter Hinweis an interessierte Biblionik-LeserInnen: In der Weiterentwicklung dieses Prototyps schlummern zahlreiche spannende Hausarbeiten und Papers in Fächern wie Wissensorganisation und Informationsmanagement, vielleicht auch Software Engineering. :)

Ich möchte die kurz- und mittelfristigen Zielen, die Magnus nennt, und die ich in meinen beiden vorangegangenen Biblionik-Beiträgen (s.o.) genannt hatte, noch um drei z.T. langfristigere Perspektiven ergänzen:

  • Der Maui Indexer bietet neben der Wikipedia-basierten Indexierung auch eine simple Keyword-Extraktion an. Wer mein Beispieldokument aus dem letzten Beitrag (Credit Rating Prediction Using Ant Colony Optimization von David Martens et al.) durch diese Maui-Demo laufen läßt, wird feststellen, daß u.a. “AntMiner” extrahiert wird. Das ist der Namen eines Datamining-Tools, über das es einige wissenschaftliche Publikationen, aber bisher noch keinen eigenen Wikipedia-Artikel gibt. Allein schon, um das so gewonnene Wissen nicht zu verlieren, müßte in so einem Fall eigentlich Thesaurusarbeit innerhalb der Wikipedia stattfinden. Z.B. müßte, wenn in mindestens zwei wissenschaftlichen Publikationen von unterschiedlichen Autoren ein solches Stichwort zutage gefördert wurde, das jeweilige Lemma in der Wikipedia angelegt werden. Die Stärke der Wikipedia ist jedoch gerade, daß sie ein lebendiges Produkt ihrer Autorengemeinschaft ist — und diese kann in puncto Relevanzkriterien auch eigenwillig sein. Hier wird es spannend: Wie könnte ein Wiki-Thesaurus aussehen, der die lebendige Wissenstruktur der Wikipedia aufgreift, sie jedoch selbständig  ergänzt, d.h. unabhängig von den Relevanzkriterien oder anderen Spezifikationen der Wikipedia als eines Lexikon-Projekts?
  • Das Konzept Wikipedia ist vielfach kopiert und variiert worden. Bücherregale voller Literatur über Wikis im Unternehmen und ähnliche Szenarien machen deutlich, daß der Wiki-Weg der kollaborativen Wissensorganisation nicht nur von offenen Web-Communities wie der Wikipedia beschritten werden kann. Was wäre, wenn man einen Wiki-Thesaurus (bei dem es sich auch um die Kopie eines Ausschnitts der Wikipedia handeln kann, aber nicht muß) von einer streng begrenzten Autorencommunity entwickeln läßt, ggf. auch hinter der Firewall einer Firma oder einer Hochschule? — In einem solchen Szenario könnte eine halbautomatische Inhaltserschließungs-Komponente z.B. dabei helfen, obskure oder interne Medien in die Themenstruktur des internen Wikis hineinzubringen. (Herzlichen Dank an Leif Singer, Wissenschaftler an der Leibniz Universität Hannover, für den Hinweis auf dieses Szenario und zahlreiche weitere Anregungen!)
  • Stefan Gradmann weist (Ideen wie die “Nanopublikation” von David Shotton und anderen aufgreifend) darauf hin, daß heute nicht mehr entlang von Mediencontainern indexiert werden muß. Vielmehr kann und sollte in die digitalen Texte eingestiegen werden, bis hinunter zu kleinsten bedeutungstragenden Einheiten wie einzelnen Begriffen, Daten und ihren Beziehungen untereinander, innerhalb eines Satzes oder eines Textteils. — Mit der Erschließung (selektierter?) Publikationen in die Tiefe zu gehen — ist vielleicht auch dies eine Perspektive der “Sacherschließung in und mit der Wikipedia”?

Genug der Spinnerei für heute, ich wünsche allen LeserInnen von Biblionik noch ein schönes Hasenfest!

Keine Tags zu diesem Beitrag.

Tags:

9 thoughts on “Sacherschließung von Literatur in und mit der Wikipedia — der funktionierende Prototyp LITurgy

  1. Cool! Du solltest noch hinweisen, dass das Tool unter http://toolserver.org/~magnus/liturgy zu finden ist. Dort können auch ohne Wikipedia-Account die Literaturvorschläge zu einem Artikel abgerufen werden, z.B. Tropenkrankheit. Die Abstimmungsergebnisse sind allerdings nicht sichtbar und so ganz werde ich auf die schnelle aus dem Quellcode nicht schlau. Wo werden die Abstimmungen gespeichert, so dass sich einsehen lässt, wo zuletzt abgestimmt wurde?

  2. Jakob und Heinz, vielen Dank! 🙂 War wären Blogbeiträge (insbesondere meine nachlässig hingeklatschten) ohne Korrekturen und Anreicherungen in den Kommentaren (insbesondere von aufmerksamen Lesern wie euch)….

  3. Sieht sehr interessant aus (dafür habe ich mich sogar wieder bei der Wikipedia registriert, nachdem ich mein früheres Konto vor einiger Zeit aus Ärger über zu großen Exklusionismus – und manches andere – hatte löschen lassen). Schön wäre es jetzt, wenn weitere Quellen hinzukämen – gerade von Biologie und Medizin verstehe ich zuwenig, um die Vorschläge beurteilen zu können.

  4. Danke für das Feedback, Bernhard! Magnus meinte, daß das Hinzufügen weiterer Quellen kein großes Problem sei, wenn es eine API zur jeweiligen Quelle gibt. Ich würde ergänzen: Bitte bevorzugt Open-Access-Quellen, denn eine starke Beteiligung der Wikipedia-Community bei der Sichtung der Volltexte wäre sonst unrealistisch.

  5. Ich antworte mal hier auf ein paar Kommentare:

    * Die potentiellen Literaturstellen und die Abstimmungsergebnisse werden auf dem Toolserver in der Datenbank “u_magnus_liturgy_p” gespeichert. Diese ist für jeden Programmierer mit Toolserver-Zugang lesbar.

    * Ich habe keinen Datenbank-“Seed” vorgenommen, die Datenbank begann also “leer”.

    * Falls es zu einem Thema noch keine Literaturstellen in der Datenbank gibt, wird die PLoS-Suche angeworfen (eingestellt auf “nur reviews”), und die Ergebnisse als potentiellen Literaturstellen gespeichert. Gesucht wird nach dem Artikelnamen; falls es einen Link auf einen Englischen Artikel gibt, wird dessen Name verwendet.

    * Ich habe die CiteSeerX API gefunden (glaube ich…) und werd’s mit mal angucken.

    * Ein Problem mit diesen Suchen ist generell “flooding” – PubMed, Google Books etc. geben so viele Resultate, dass die Liste der Kandidaten zu lang würde. Daher auch meine PLoS-Beschränkung auf Reviews. Manche Resultate sind nach Relevanz geordnet, andere (PubMed) nach Datum, was nicht wirklich hilfreich ist.

Leave a Reply