Sacherschließung von Literatur in und mit der Wikipedia – eine Spielidee

Im Urlaub fiel mir eine Spielidee ein.

Immer mehr wissenschaftliche Veröffentlichungen sind digital im Netz abrufbar. Vieles davon läßt sich durch Volltext-Suchdienste finden, doch das ist nicht die einzige und nicht immer die beste Art, Literatur zu einem Thema zu finden.

Eine andere, neuartige Methode ist das Finden von Literatur mit der Wikipedia. Mit einer einfachen Websuche landet man bekanntlich oft beim Wikipedia-Artikel zum jeweiligen Thema, und die Artikel enthalten oft eine Menge nützlicher wissenschaftlicher Literaturangaben. Anderseits ist natürlich festzustellen: Selbst in einem sorgfältig gepflegten Wikipedia-Artikel fehlen oft eine Menge wissenschaftlicher Literaturangaben, die zum jeweiligen Thema gut passen würden.

Hier setzt die Spielidee an:

  • Ein Crawler indexiert den Volltext frei zugänglicher wissenschaftlicher Literatur. (Die Suchmaschine BASE tut dies beispielsweise für Literatur aus tausenden Open-Access-Journals und hunderten Repositories.)
  • Ein solcher Index wird durch eine automatische Themenerkennung grob vorsortiert auf passende Wikipedia-Artikel. (Dies ist mit freier Software wie Maui Indexer möglich.)
  • Jetzt wird es interessant: In dem jeweiligen Wikipedia-Artikel kann nun automatisch neue Literatur angezeigt werden, die vielleicht zum Thema passt. Alle Leser des Wikipedia-Artikels können per Mausklick votieren: Paßt die Literaturangabe genau zum Thema des Artikels: Ja, Nein oder Vielleicht? – Literaturangaben mit genügend Ja-Stimmen wandern irgendwann in die Literaturliste des Artikels.
  • Wie und warum sollen die Leser beurteilen, ob eine Literaturangabe paßt? Erstens bekommen sie einen Link zum Volltext, können also einen Blick in den Text werfen. Zweitens haben sie das gute Gefühl, dem Wiki-Gedanken entsprechend einen (minimalen) Beitrag zum Artikel geleistet zu haben. Drittens kann man das Ganze als Spiel aufziehen: Wer viele Voten abgegeben hat, die später von weiteren Wikipedia-Benutzern bestätigt worden sind, bekommt Punkte, kann sich vielleicht in einem Artikel-, Themenbereichs- oder Wikipedia-Score mit anderen Benutzern vergleichen, etc.

Wozu dieses Spiel?

  • Die Wikipedia ist ein naheliegender Einstiegspunkt zur bibliographischen Recherche, dessen Entwicklungspotential in dieser Hinsicht erst allmählich klar wird. (Jakob Voß hatte schon vor einiger Weile darauf hingewiesen, daß man die Wikipedia auch als einen kollaborativ betriebenen Thesaurus betrachten kann.)
  • Die Qualität der Wikipedia-Artikel könnte von diesem Spiel profitieren. Es ist rechtlich sicher und technisch einfach, ganze Textauszüge, Bilder etc. aus Open-Access-Publikationen in der Wikipedia zu zitieren; manche Autoren würden darauf aufmerksam, daß ihre Arbeit von der Wikipedia verlinkt wird, was vielleicht zu weiteren kompetenten Fehlerkorrekturen oder Ergänzungen führt, etc.
  • Bibliothekare und Dokumentare sind bisher nicht besonders gut darin, sogenannte unselbständige Literatur (also Konferenz-Papers, Aufsätze etc.) schnell, umfassend und genau thematisch zu sortieren. Die Wikipedia-Benutzer können es vielleicht besser. Man kann das auch als ein bibliothekarisches Meta-Spiel betrachten, dessen Regeln noch genauer zu definieren wären. Ich würde meinen Wetteinsatz auf die Wikipedia-Benutzercommunity setzen: Sie wird in Kürze schneller, umfassender und genauer sortieren als professionelle Indexierer, zumindest die frei zugängliche wissenschaftliche Literatur. :-)
  • Neben der (spielerischen) Konkurrenz könnte hier ein realer Nutzen für Dritte entstehen: Die von den Wikipedia-Benutzern erstellten Zuordnungen stünden unter einer freien Lizenz, könnten durch Dienste wie DBpedia in eine für Maschinen besser lesbare Form gebracht und schließlich andernorts nachgenutzt werden, zum Beispiel in Bibliothekskatalogen und Datenbanken. Voraussetzung wäre ein Mapping zwischen Artikelbezeichnungen der Wikipedia und den tradierten Thesauri (bzw. den Wikipedia-Kategorien und den tradierten Klassifikationen).
  • Im Webzeitalter wird es Zeit, Konzepte wie die Sacherschließung kreativ aufzuwirbeln. Dienste wie Faviki faszinieren mich, weil hier ansatzweise erkennbar wird, was für ein Potential der Dreiklang aus kollaborativem Thesaurus (Wikipedia), Algorithmen (bei Faviki: Zemanta) und sortierenden Benutzern hat. Gehen wir noch einen Schritt weiter und lösen uns von der Betrachtung des zu sortierenden Objekts! Gehen wir stattdessen von dem Thema aus, das uns gerade beschäftigt, suchen den öffentlichen Knotenpunkt des Themas im Web auf, lassen uns dort von einem Algorithmus ein paar passende Publikationen zuwerfen – und beobachten dann, was passiert.

Abschließend geht mein Dank an Mathias Schindler – Elemente der Spielidee sind im anregenden Gedankenaustausch mit ihm zustande gekommen.

15 thoughts on “Sacherschließung von Literatur in und mit der Wikipedia – eine Spielidee

  1. Gefällt mir. Bekommst Du den Datenexport aus der Suchmaschine und das Sortieren mit Maui so hin, dass die Ergebnisse dann in eine zentrale Datenbank eingepflegt werden können?

    Paper:
    * Sprache (ISO 639-1)
    * Titel
    * Autor
    * URL des Volltextes
    * Zeitpunkt der Aufnahme im Index

    Paper zu Artikel:
    * Wikipedia-Artikelname
    * Paper gelistet (ja/nein)
    * pro-Stimmen
    * contra-Stimmen

    So könnte man das nett in einer Extension abbilden… Artikel die innerhalb eines bestimmten Zeitraumes eine bestimmte Menge pro-Stimmen erhalten haben werden dann in den Wikitext übertragen und in der DB entsprechen markiert.

    Ein paar Cent zu Deiner Idee…

  2. Die Idee ist charmant, ich sehe allerdings mehrere Probleme. Zuerst fällt mir da ein:

    1. Du hast den Wikipedia-Artikel “Marketing” (über 90k Treffer bei BASE). Welche Artikel sollen vorgeschlagen werden?

    2. Jeder Artikel müsste m.E. mehrfach darauf hin bewertet werden, ob er zum Wikipedia-Eintrag passt. Schafft man dies für eine ausreichende Menge von Artikeln, damit sich die Erschließung überhaupt lohnt?

    Ob es die erforderliche kritische Menge an geeigneten Bewertern gibt, die die Zuordnung überhaupt beurteilen können, sei dahingestellt. When you build it, will they come? Hierbei würde ich es auf einen Versuch ankommen lassen. Die schiere Menge der täglich publizierten Literatur ist vermutlich durch diese Art eines Wikipedia-Erschließungs-Spiel nicht zu bewältigen.

  3. Zunächst einmal herzlichen Dank für eure Aufmerksamkeit. Toll, Manuel, daß du über eine Extension nachdenkst!

    Ich kann zur technischen Umsetzung dieser Spielidee leider wenig beitragen.

    Ich hatte BASE übrigens nur als Beispiel erwähnt, im Prinzip käme natürlich auch jeder andere Suchdienst in Frage, der regelmäßig frei zugängliche wissenschaftliche Literatur crawlt. Es muß nicht mal eine spezielle OA-Suchmaschine wie BASE sein, denn es würde ja auch reichen, frei zugängliche Dokumente aus dem Suchindex selektieren zu können.

    Zu der reinen Masse der Artikel, die CH anspricht: Ich denke, da fände man schon ein Sortierkriterium. Soweit technisch umsetzbar würde ich z.B. erstmal schauen, welche mit “Marketing” vorsortierte Literatur, die 2010 veröffentlicht wurde, der Crawler zuletzt entdeckt hat, also mit der neuesten Literatur anzufangen. Vielleicht könnte man den Besuchern der Seite jeweils die letzten fünf bis sieben Titel anbieten, und dann jeweils mit älteren Sachen auffrischen. Eine zusätzliche Einschränkung wäre, nur Literatur in der Sprache zu nehmen, die zur Sprachversion der jeweiligen Wikipedia paßt.

    Gut wär’s, wenn man keine Drittmittelgeber o.ä. von einer Investitionsentscheidung überzeugen muß, erst dann taucht nämlich diese “will they come”-Frage auf. Es “auf einen Versuch ankommen lassen” – das ist der entscheidende Punkt.

  4. Tolle Idee, das könnte gut funktionieren! Bevor wir an technische Umsetzungen denken, sollte wir uns eine passende Benutzeroberfläche überlegen. Die Oberfläche trägt mehr zum Erfolg oder Mißerfolg bei als die Details des Vorschlag-Algorithmus. Die Bewertung könnte ähnlich wie bei Stackoverflow aussehen, wo einzelne Beiträge und Kommentare bewertet werden können und so die Reihenfolge festgelegt wird.

  5. Sehr wichtiger Punkt, den Jakob hier (und in seinem Blog) anspricht! Ein wichtiges UI-Detail wäre m.E., daß visuell sofort klar wird, daß jeweils ein Klick reicht, und welche Optionen es gibt. Ich könnte mir eine fünfteilige Skala vorstellen (weiß aber nicht ob das vielleicht schon zu kompliziert ist – hängt auch davon ab wie mans visualisiert): 1. Passt, 2. Vielleicht/Weiß nicht, 3. Passt nicht, 4. Passt, aber ich will weitere Wikipedia-Artikelzuordnungen zu diesem Item sehen und beurteilen, 5. Passt nicht, will weitere Zuordnungen). Wichtig wäre für ein angenehmes Spiele-UI, sich zu überlegen, was visuell passiert, wenn man den jeweiligen Knopf angeklickt hat. Z.B. könnte bei einem Nein das Item zunächst ausgegraut werden, aber weiter anklickbar sein, um korrigieren zu können.

  6. Finde die Idee ebenfalls hervorragend. Ein wenig Gedanken mache ich mir allerdings ähnlich wie CH bezüglich der Auswahl der Literatur. Würde dieser Ansatz funktionieren, wäre das natürlich ein weiteres, sehr gutes Argument für OA…

  7. (das Folgende auf Bitte von Lambert aus meiner mail kopiert)

    * Das überschwemmt bald die Literaturliste, besonders bei generellen Themen
    * Warum die ganzen Publikationen selber laden, Volltext-indizieren und
    auf Artikel mappen?

    Also dacht’ ich mir, vielleicht optional auf Reviews reduzieren (viel
    nützlicher für die meisten Themen, und Größenordnungen weniger).
    Und statt Publikationen in Massen selbst verarbeiten, lieber bei
    Bedarf einfach bei den Journals suchen lassen (vorzugsweise nur Titel
    und Abstract, bei Volltext bekommt man wieder nur allen möglichen
    Mumpitz).

    Demo:
    http://toolserver.org/~magnus/liturgy.php

    Beispiel :
    http://toolserver.org/~magnus/liturgy.php?language=de&article=Malaria&reviews_only=1&doit=Do+it!

    * LITurgy für LITeratur-Spiel – sorry 😉
    * Wenn nicht en.wikipedia verwendet wird, probiert es den language
    link nach en für Suchbegriffe (auch wenn’s wie im Beispiel der gleiche
    ist…)
    * Sucht im Moment nur PLoS (dafür alle PLoS-Journals gleichzeitig),
    kann aber modular erweitert werden
    * Sucht nur in Titel & Abstract (Volltext kann angeschaltet werden)
    * Hier nur Reviews (findet 7; ohne Review-Filter 606…)
    * Zeigt nur die ersten 100 Treffer (Gnade!)

    Die “Spiel”-Komponente hab ich mir erstmal geschenkt
    (Benutzer-Authentifizierung auf dem Toolserver – AARGH! HELP!!), aber
    die Verwaltung könnte einfach gemacht werden – Datenbanktabelle
    SPRACHE:ARTIKEL:DOI:BENUTZER – fertig 😉

  8. Danke für den schnellen Prototyp Magnus. In der jetzigen Form ist es aber nicht mehr als ein Hilfsmittel zum Durchsuchen von PLoS – es fehlen gerade die zwei wesentlichen Bestandteile von Lamberts Idee so wie ich sie verstanden habe:

    1. “Spiel” ist keine optionale Komponente sondern Grundidee der Anwendung.

    2. Artikel werden auf Basis der Ähnlichkeit vorgeschlagen – das lässt sich aber nur feststellen, wenn die Volltexte gemeinsam indexiert werden und nicht über eine Suchanfrage bei einem Fremdanbieter wie PLoS.

    Was das Spielen betrifft habe ich auch nochmal in meinem Blog darauf hingewiesen, das erst das Benutzerinterface entwickelt werden sollte und zwar unabhängig von technischen Überlegungen wie Servern, Datenbanken und Seitenbeschreibungssprachen.

    Was das Mapping von Wikipedia-Artikel und Open-Access-Artikel betrifft, so vertraue ich da auf das gute alte Vektorraum-Modell, so wie es beispielsweise in Lucene umgesetzt wird. Damit lassen sich Volltexte nach Ähnlichkeit ranken. Die Anzahl der Treffer ist dabei völlig irrelevant, da es nur auf die Reihenfolge der Treffer ankommt.

  9. Hi Jakob,

    ich habe das “Spiel” nie als optional bezeichnet, ich habe nur noch nichts derartiges implementiert. Ich sehe das Ganze (von der technischen Seite) in drei Teile zerfallen:

    1. Mapping / Suche, wie auch immer implementiert
    2. Abstimm-Verwaltung (Datenbank)
    3. Spiel-Interface

    Ich hatte mich an #1 versucht; Mapping kann durchaus besser sein als Suche, aber Suche ist im Moment fuer mich einfacher :-) Wie gesagt, technisch gesehen spielt es keine Rolle, wie die Zuordnung Artikel Publikation zustande kommt.

    Werde mich vielleicht mal am Interface versuchen (diese Wireframe-Dinger sind mir aber zu kompliziert 😉

  10. Stimmt, die Anwendung lässt sich so unterteilen, wobei 1. noch am einfachsten zu entkoppeln ist. Ich bin wirklich gespannt, wie gut Empfehlungen sind, wenn sie auf dem direkten Vektorraum-Vergleich der Volltexte basieren – wahrscheinlich funktioniert das nur wenn die Sprache gleich ist. Die Datenbank ergibt sich aus den eigentlichen Spielregeln (vielleicht mal ein Anlass eine schemafreie NoSQL-Datenbank auszuprobieren), da sind sicher mehrere Varianten möglich:

    I) Punkte bei gegebenem Wikipedia-Artikeln
    I.1) für jedes “+” oder “-” um einzelne Fach-Artikel als passend oder unpassend zum Artikel zu bewerten
    I.2) für das erstmalige Bewerten eines einzelnen Fach-Artikels sofern dieser später von der Mehrheit der Mitspieler ebenso bewertet wird
    I.3) für das Eintragen oder Korrigieren neuer Fach-Artikel

    II) Bei gegebenen Fach-Artikeln
    II.1) für jeden angegebene Wikipedia-Artikel
    II.2) für Wikipedia-Artikel, die ebenfalls von anderen angegeben werden
    II.3) für Wikipedia-Artikel, deren Unterthemen nicht dem gleichen Artikel zugeordnet sind (lässt sich über die Kategorien ermitteln), damit die Zuordnung möglichst speziell ist.

    Vielleicht fällt euch noch mehr oder Besseres ein. Wie wäre es mit einem Wettbewerb für die Benutzeroberfläche und Funktionsbeschreibung (nur das Mockup ohne CSS-Schnickschnack)?

  11. Der Vorschlag von Klaus Graf mit einem Open-Data-Server wäre wirklich die bessere Lösung. Alleine schon weil bei WP keine x-Links zusätzlich hinzugefügt werden können. Früher gab es bei WP eine 7 Links-Regel (max. Anzahl an Links). Fragt sich nur wer das finanziert? Ob der deutsche Wikimediaverein so etwas machen würde? Vielleicht als Anschub?

Leave a Reply