Biblionik

Zur Revolutionierung von Bibliothek und Wissensorganisation durch das Internet

Sacherschließung von Literatur in und mit der Wikipedia — der funktionierende Prototyp LITurgy

By Lambert Heller on 25. April 2011


Die systematische inhaltliche Erschließung von Literatur könnte und sollte heute besser in der Wikipedia stattfinden, denn die Wikipedia ist ein überlegener Thesaurus, und mit Unterstützung durch automatische Verfahren läßt sich vermutlich ein einfacher gemeinschaftlicher Erschließungsprozeß konstruieren. Diese These hatte ich im letzten Jahr zur Diskussion gestellt, und kürzlich durch Mockups ein wenig anschaulicher gemacht. Magnus Manske, einer der Erfinder der Software MediaWiki, der technischen Basis der Wikipedia, hat nun mit LITurgy den ersten funktionstüchtigen Prototypen für dieses Sacherschließungsverfahren geschaffen.

Zum Ausprobieren von LITurgy (setzt ein eigenes Benutzerkonto bei der Wikipedia voraus) lasse ich Magnus zunächst selbst zu Wort kommen:

Habe ein Demo, das (bei Bedarf) Publikationen aus PLoS abfragt und in eine Datenbank lädt (kann auch von anderen Quellen/mit anderen Methoden geladen werden).

Interface-Demo: Geh zu http://de.wikipedia.org/wiki/Special:MyPage/vector.js und füge die Zeile importScriptURI("http://toolserver.org/~magnus/liturgy/liturgy.js"); hinzu. Dann ein naturwissenschaftliches Thema ansteuern, z.B.: http://de.wikipedia.org/wiki/Ribosomale_RNA

Unter “Literatur” (wird bei Bedarf erzeugt) gibt’s ein StackOverflow-ähnliches Interface.

Was fehlt:

  • Andere Methoden zum Datenbank-Seeding
  • Sicherheit (jeder mit ein wenig Ahnung von JavaScript kann im Moment
    als jeder Wikipedia-Benutzer abstimmen…)
  • Automatische Übernahme der Literatur in den WikiText
  • Noch viel mehr…

Nachtrag: Es scheint, im gegenwärtigen Zustand funktioniert das Tool besser bei “speziellen” Themen als bei allgemeinen. Ein allgemein beschreibendes Paper zu “Krebs” wird eben kaum geschrieben ;-) während die Resultate z.B. zu http://de.wikipedia.org/wiki/Helicobacter_pylori ganz brauchbar ist.

Hinweis: Im Moment zeige ich nur PLoS-Review-Artikel an; Reviews sind normalerweise bessere Referenzen (“reviewed original research”:-) und nicht überspezialisiert. Hält auch die Kandidaten-Liste schön kurz…

Vielen Dank Magnus, du hast diese Idee wirklich greifbar gemacht!

An dieser Stelle ein dezenter Hinweis an interessierte Biblionik-LeserInnen: In der Weiterentwicklung dieses Prototyps schlummern zahlreiche spannende Hausarbeiten und Papers in Fächern wie Wissensorganisation und Informationsmanagement, vielleicht auch Software Engineering. :)

Ich möchte die kurz- und mittelfristigen Zielen, die Magnus nennt, und die ich in meinen beiden vorangegangenen Biblionik-Beiträgen (s.o.) genannt hatte, noch um drei z.T. langfristigere Perspektiven ergänzen:

  • Der Maui Indexer bietet neben der Wikipedia-basierten Indexierung auch eine simple Keyword-Extraktion an. Wer mein Beispieldokument aus dem letzten Beitrag (Credit Rating Prediction Using Ant Colony Optimization von David Martens et al.) durch diese Maui-Demo laufen läßt, wird feststellen, daß u.a. “AntMiner” extrahiert wird. Das ist der Namen eines Datamining-Tools, über das es einige wissenschaftliche Publikationen, aber bisher noch keinen eigenen Wikipedia-Artikel gibt. Allein schon, um das so gewonnene Wissen nicht zu verlieren, müßte in so einem Fall eigentlich Thesaurusarbeit innerhalb der Wikipedia stattfinden. Z.B. müßte, wenn in mindestens zwei wissenschaftlichen Publikationen von unterschiedlichen Autoren ein solches Stichwort zutage gefördert wurde, das jeweilige Lemma in der Wikipedia angelegt werden. Die Stärke der Wikipedia ist jedoch gerade, daß sie ein lebendiges Produkt ihrer Autorengemeinschaft ist — und diese kann in puncto Relevanzkriterien auch eigenwillig sein. Hier wird es spannend: Wie könnte ein Wiki-Thesaurus aussehen, der die lebendige Wissenstruktur der Wikipedia aufgreift, sie jedoch selbständig  ergänzt, d.h. unabhängig von den Relevanzkriterien oder anderen Spezifikationen der Wikipedia als eines Lexikon-Projekts?
  • Das Konzept Wikipedia ist vielfach kopiert und variiert worden. Bücherregale voller Literatur über Wikis im Unternehmen und ähnliche Szenarien machen deutlich, daß der Wiki-Weg der kollaborativen Wissensorganisation nicht nur von offenen Web-Communities wie der Wikipedia beschritten werden kann. Was wäre, wenn man einen Wiki-Thesaurus (bei dem es sich auch um die Kopie eines Ausschnitts der Wikipedia handeln kann, aber nicht muß) von einer streng begrenzten Autorencommunity entwickeln läßt, ggf. auch hinter der Firewall einer Firma oder einer Hochschule? — In einem solchen Szenario könnte eine halbautomatische Inhaltserschließungs-Komponente z.B. dabei helfen, obskure oder interne Medien in die Themenstruktur des internen Wikis hineinzubringen. (Herzlichen Dank an Leif Singer, Wissenschaftler an der Leibniz Universität Hannover, für den Hinweis auf dieses Szenario und zahlreiche weitere Anregungen!)
  • Stefan Gradmann weist (Ideen wie die “Nanopublikation” von David Shotton und anderen aufgreifend) darauf hin, daß heute nicht mehr entlang von Mediencontainern indexiert werden muß. Vielmehr kann und sollte in die digitalen Texte eingestiegen werden, bis hinunter zu kleinsten bedeutungstragenden Einheiten wie einzelnen Begriffen, Daten und ihren Beziehungen untereinander, innerhalb eines Satzes oder eines Textteils. — Mit der Erschließung (selektierter?) Publikationen in die Tiefe zu gehen — ist vielleicht auch dies eine Perspektive der “Sacherschließung in und mit der Wikipedia”?

Genug der Spinnerei für heute, ich wünsche allen LeserInnen von Biblionik noch ein schönes Hasenfest!

Keine Tags zu diesem Beitrag.

Tags:Aggregator

| Tagged Aggregator | 9 Responses

Sacherschließung von Literatur in und mit der Wikipedia — einfach anfangen?

By Lambert Heller on 6. April 2011


In dem zurückliegenden Beitrag Sacherschließung von Literatur in und mit der Wikipedia — eine Spielidee hatte ich die Grundidee und die Potentiale einer kollaborativen Sacherschließung der Wikipedia-Community mittels der Wikipedia als Quasi-Thesaurus zur Diskussion gestellt. Dieser Beitrag ist eine Fortsetzung. Zum besseren Verständnis empfiehlt es sich daher, zunächst einen Blick in den alten Beitrag zu werfen.

Wie wird ein Aufsatz in und mit der Wikipedia erschlossen?

Um in diesem neuen Blogbeitrag zur Diskussion zu stellen, wie so etwas aussehen könnte, habe ich mit einigen Mock-ups die Erschließung eines realen Aufsatzes in und mit der Wikipedia dargestellt.

Mein Ausgangspunkt ist die frei zugängliche Preprint-Version des Zeitschriftenaufsatzes Credit Rating Prediction Using Ant Colony Optimization von David Martens et al. In BASE (Bielefeld Academic Search Engine) findet man die Metadaten, die zu diesem Preprint gehören, hübsch zusammengestellt. Datensätze wie dieser müßten, z.B. aus BASE, im ersten Schritt als Datensätze in die Wikipedia übernommen werden. Für Wikipedia-Benutzer sähe so ein importierter Datensatz vielleicht aus wie in Abb. 1.

Abb. 1: Datensatz in der Wikipedia-Bibliographie-Sicht

Abb. 1: Datensatz in der Wikipedia-Bibliographie-Sicht

Woher kommen die vorgeschlagenen “Inhaltlichen Zuordnungen”?

Durch Indexierung mit Maui Indexer oder einem ähnlichen Tool sind im Abschnitt „WP:Inhaltliche Zuordnung“ automatisch Links zu Wikipedia-Artikeln hinzugefügt worden, die thematisch zu diesem Aufsatz passen könnten.

Die Links in dem Beispiel sind übrigens erfunden, aber das Ergebnis könnte so ähnlich aussehen. Im Aufsatztitel ist z.B. von „Ant Colony Optimization“ die Rede. Die englischsprachige Wikipedia enthält einen gleichnamigen Eintrag zu dieser Methode. Statt „Ant Colony Optimization“ könnte in der deutschsprachigen Wikipedia automatisch „Ameisenalgorithmus“ angezeigt werden, da dieser Wikipedia-Eintrag mit „Ant Colony Optimization“ verlinkt ist.

Die automatisch hinzugefügten Links landen zunächst im Feld „unbestätigte“. Erfahrungsgemäß werden bei der automatischen Indexierung häufig offensichtlich falsche Vorschläge gemacht. Diese können von jedem registrierten Benutzer durch Klick auf „entfernen“ beseitigt werden. Automatische Zuordnungen, die von Benutzern bestätigt worden sind, sollten sich hingegen nicht so einfach entfernen lassen, intellektuell vorgenommene Zuordnungen natürlich auch nicht.

Wie kommt es zu “bestätigten Zuordnungen”?

Wenn man in Abb. 1 auf den Vorschlag „Insolvenzprognoseverfahren“ klickt, hätte man den Wikipedia-Eintrag zu diesem Thema vor sich. Unten auf dieser Seite, unter „Literatur“, werden automatisch die zuletzt indexierten Literaturvorschläge aufgezählt. Der Beispiel-Aufsatz würde dort etwa so erscheinen wie in Abb. 2.

Abb. 2: Literaturvorschlag im Artikel entdecken

Abb. 2: Literaturvorschlag im Artikel entdecken

Jeder Wikipedia-Leser, der den Artikel überfliegt, stolpert im Literatur-Abschnitt über den vorgeschlagenen Aufsatz, neben der Aufforderung, diese Zuordnung zu bestätigen. Bei der Gestaltung dieser Aufforderung können Prinzipien, die sich in der Sacherschließung traditionell bewährt haben, ansatzweise berücksichtigt werden:

  1. Grundlage der richtigen Erschließung ist die Betrachtung des zu erschließenden Objekts. Deshalb ist es hier wichtig, den Link zum Volltext besonders hervorzuheben.
  2. Das verwendete Schlagwort sollte so genau wie möglich passen. Den Begriff „genau“ kann man in diesem Zusammenhang ruhig mehr als ein mal verwenden…
  3. Mehrere Schlagworte können hilfreich sein — womit wir bei Abb. 3 sind, die darstellt, wie es nach dem Bestätigungs-Klick weitergeht.

Die Bestätigung wird mit dem Hinweis quittiert, daß der automatisch ermittelte Literaturvorschlag erst nach Bestätigung durch zwei registrierte Wikipedia-Autoren in die Literaturliste aufgenommen wird. (Vgl. Abb. 3. Wann welcher automatische Vorschlag von welchem Benutzer bestätigt wurde, sollte dauerhaft nachvollziehbar bleiben, wie andeutungsweise in Abb. 1 zu sehen.)

Abb. 3: Dialogfenster nach Zuordnung des Literaturvorschlags

Abb. 3: Dialogfenster nach Zuordnung des Literaturvorschlags

Danach wird dem Benutzer angeboten, mit dem Zuordnen fortzufahren. Zwei Anknüpfungspunkte liegen dabei nahe:

  1. Dem Benutzer werden weitere Wikipedia-Einträge („Ameisenalgorithmus“, „Basel II“…) angezeigt, die automatisch zu dem Aufsatz ermittelt worden sind. Hier findet gewissermaßen ein Perspektivenwechsel statt: Eben noch beschäftigte sich der Benutzer mit dem Thema des Wikipedia-Eintrags und ist dann auf vorgeschlagene Literatur dazu gestoßen. Nun schlüpft er in die Rolle des Bibliothekars/Dokumentars, der dieses eine Literaturstück vor sich hat und überlegt, zu welchen anderen Themen es passt…
  2. Dem Benutzer wird darüber hinaus angeboten, sich alle weiteren Literaturvorschläge anzeigen zu lassen, die zu Wikipedia-Einträgen in den Wikipedia-Kategorien „Bonitätsprüfung“ und „Unternehmensbewertung“ gemacht worden sind. Gewissermaßen wieder ein Rollenwechsel — diesmal zum Fachreferenten, an dem alles vorbeiströmt, was (vielleicht) zu seinem gegebenen Themengebiet paßt. Diese Sicht kann z.B. für Wikipedia-Benutzer reizvoll sein, die sich dauerhaft für einen bestimmten Themenbereich interessieren. Für den Benutzer sehen die Vorschläge so ähnlich aus wie in Abb. 1, vielleicht ergänzt um den Kategorienbaum der Wikipedia, in dem er browsen kann.

Exkurs zum Schlagwort “Insolvenzprognoseverfahren” im gezeigten Beispiel

Ich habe einigermaßen willkürlich ein Beispiel aus einem Literaturbereich gewählt, mit dem ich in meiner beruflichen Tätigkeit als Fachreferent für Wirtschaftswissenschaften zu tun habe. Über solche Prognoseverfahren ist seit den Neunziger Jahren eine Menge geschrieben worden.
Die Schlagworte auf der Seite des wirtschaftswissenschaftlichen Preprint-Netzwerks RePEc zu dem Aufsatz sind ziemlich gut – aber sie verlinken nur auf andere Aufsätze zu dem jeweiligen Schlagwort innerhalb von RePEc. (Zumindest beim „Ameisenalgorithmus“ ist das schade, denn diese Methode wenden natürlich nicht nur Wirtschaftswissenschaftler an.)
Aber warum ist dieser Aufsatz bisher nirgends mit dem Schlagwort „Insolvenzprognoseverfahren“ als Synonym zu „Bankruptcy prediction“ auffindbar gemacht worden?
Werfen wir zunächst einen Blick in die Schlagwortnormdatei (SWD), den Universalthesaurus der Deutschen Nationalbibliothek. Hier gibt es nur das Schlagwort „Insolvenz“ mit den Unterbegriffen „Drohende Zahlungsunfähigkeit“ und „Insolvenzverhütung“.
Aber neben der SWD existieren auch fachliche Thesauri, in diesem Fall ist der Standard-Thesaurus Wirtschaft (STW) einschlägig. Er kennt nur das Schlagwort “Zahlungsunfähigkeit”, u.a. mit dem Synonym “Insolvenz” sowie den Unterbegriffen “Bankinsolvenz”, “Privatinsolvenz” sowie “Staatsbankrott”.
Nun zur Wikipedia. Hier gibt es zahlreiche Einträge, die das Thema Insolvenz detailliert aufschlüsseln, u.a. neben dem „Insolvenzprognoseverfahren“ das „Informelle Insolvenzprognoseverfahren“, „Optionspreismodelle als Insolvenzprognoseverfahren“, „Deterministische Simulationsmodelle als Insolvenzprognoseverfahren“ sowie „Anleihespreadbasierte Ansätze als Insolvenzprognoseverfahren“. Daneben gibt es die Einträge „Schätzgütemaße für kardinale Insolvenzprognosen“, „Schätzgütemaße für kategoriale Insolvenzprognosen“ und „Schätzgütemaße für ordinale Insolvenzprognosen“.
Wie gesagt, mein Beispiel ist zufällig gewählt. Ich behaupte aber, daß es zumindest für die Wirtschaftswissenschaften typisch ist. Es wirft ein verheerendes Licht auf den Stand der Entwicklung und Anwendung nicht-kollaborativ gepflegter Thesauri. Es ist durchaus vorstellbar, daß wir uns in einigen Jahren um SWD, STW etc. und die mit ihnen erschlossene Literatur als ein zu rettendes kulturelles Erbe werden kümmern müssen.

Ausblick: Wie kann man selbständige Literatur in und mit der Wikipedia erschließen?

Auch die Sacherschließung selbständiger Literatur — also von Büchern, bei denen es sich nicht um Aufsatzsammlungen o.ä. handelt — in und mit der Wikipedia wäre einen Versuch wert. Zumal angesichts der maroden Alternativen, siehe den obigen Exkurs.

Anders als bei Online-Aufsätzen ist der Volltext von Büchern leider selten einen Mausklick weit entfernt. Mir fallen zwei Szenarien zur Sacherschließung von Büchern in und mit der Wikipedia ein:

  1. Viele Bücher werden im Bibliothekskatalog mittlerweile mit Verlags- oder Klappentexten, Rezensionen, Scans von Inhaltsverzeichnissen oder eingeschränkten kostenlosen Vorschauen angereichert. Denkbar wäre es, nur Bücher in die automatischen Vorschlagslisten aufzunehmen, die bereits mit solchen Materialien angereichert worden sind. Ich behaupte, daß sich viele Bücher allein schon anhand des Inhaltsverzeichnisses exakt und umfassend verschlagworten lassen.
  2. In Kooperation mit einer Bibliothek bekommen Bücher beim Ausleihvorgang ein formschönes Papier-Lesezeichen. Darauf wird an den Benutzer appelliert, das jeweilige Buch in der Wikipedia-Bibliographie aufzurufen und zu prüfen, ob alles stimmt.

Ein Demonstrator für Dublin Core 2011?

Vom 21.-23. September 2011 findet die DC-2011 in Den Haag statt, die diesjährige Konferenz der Dublin Core Metadata Initiative, einer etablierten weltweiten Metadaten-Organisation. Kürzlich wurde die Deadline für Einreichungen auf den 30. April verlängert. Wer will dabei helfen, bis September einen kleinen Demonstrator zur Sacherschließung in und mit der Wikipedia zu bauen? Wenn sich das als machbar herausstellt, wäre bis zum 30. April ein englischsprachiges Abstract bei der DC-2011 einzureichen.

Abschließend bedanke ich mich herzlich bei Kai Eckert, der mit einigen beiläufigen Bemerkungen bei einem Flurgespräch während des BibCamp 4 über Metadaten mit transparenter Herkunft und Geschichte sowie über die DC-2011 indirekt zu diesem Blogartikel beigetragen hat. :)

Tags:Bibliographie, mock ups, preprint version, SWD, Wikipedia

Tags:Aggregator, Bibliographie, mock ups, preprint version, SWD, Wikipedia

| Tagged Aggregator, Bibliographie, mock ups, preprint version, SWD, Wikipedia | 2 Responses

Websites ins PDF-Format konvertieren: Nicht nützlich, sondern potentiell schädlich

By Lambert Heller on 29. März 2011

Die Literaturverwaltungssoftware Citavi bietet seit ihrem letzten Update die Funktion „Website als PDF speichern“ an. Aus der Citavi-Website:

„Viele Webseiten ändern ihren Inhalt oder sind nach einiger Zeit nicht mehr erreichbar. Wäre es da nicht hilfreich, direkt bei der Titelaufnahme in Citavi eine Kopie der Webseite im PDF-Format zu erstellen? Citavi 3.0.12 bietet dieses „Schmankerl“: Werden Webseiten in Citavis Vorschau angezeigt, erstellen Sie per Klick auf den gelben Balken sofort eine PDF-Kopie vom Inhalt der Citavi-Vorschau.“

Ich befürchte, daß Citavi-Benutzern hier eine Funktion empfohlen wird, die keinen zusätzlichen Nutzen hat, sondern vielmehr sogar schaden kann. Dabei geht es um hochinteressante Fragen des zweckmäßigen Zitierens und Archivierens von Webinhalten. Martin de la Iglesia, einer der Autoren dieses Blogs, hat mich darauf aufmerksam gemacht, daß ein solches Thema nicht in 140 Zeichen zu erledigen ist — daher der folgende Beitrag.

Der fragliche Nutzen der PDF-Konvertierung zum Speichern von HTML-Dokumenten

In der Welt der Web-Browser haben sich verschiedene Funktionen zum Speichern von Websites im HTML-Format als De-Facto-Standards etabliert. Die mir bekannten Browser bieten bereits seit vielen Jahren an, jede Seite als HTML-Dokument zu speichern. Zudem bieten sie an, alle in das HTML-Dokument eingebundenen oder zum Anzeigen benötigten Elemente mit herunterzuladen und in einem automatisch erzeugten und verknüpften Ordner abzulegen. Auf diese Weise läßt sich per Mausklick quasi eine lokale Kopie eines Website-Ausschnitts erstellen, die sich offline meistens genau so betrachten läßt wie das Original.

Daneben bieten mittlerweile mehrere Webdienste die Funktion an, beliebige Seiten öffentlich und transparent zu spiegeln — anders als bei einer reinen Offline-Kopie macht dies für Dritte nachvollziehbar, auf welche einstmals abrufbaren Seiten man sich bezieht. Bekannte Dienste dieser Art sind etwa WebCite (Beispiel), Internet Archive Wayback Machine und Diigo (Beispiel).

Meldung aus dem Citavi-Newsletter als Kopie bei WebCite (vgl. Link im Artikel)

Warum nun all diese Funktionen und Dienste zum Speichern oder Spiegeln von HTML-Dateien? Ist es nicht umständlich, das originalgetreue Aussehen einer zu zitierenden Website oft erst mittels mehrerer Dateien zu repoduzieren? — Wer gewissenhaft mit seinen Quellen umgeht dürfte sich die Frage kaum ernsthaft stellen: Das getreue Abbild einer digitalen Quelle ist nur dessen unveränderte Kopie, Byte für Byte.

Einzige Ausnahme: Ggf. müssen einige absolute Pfade im HTML-Dokument in relative Pfade umgewandelt werden. Umständlich ist daran nichts, denn die o.g. Browserfunktionen und Webdienste schützen uns ja gerade davor, uns mit den Details zu beschäftigen, mit Dateien zu hantieren o.ä. — Kann es trotzdem sein, daß die getreue Online- oder Offline-Kopie anders dargestellt wird als vom Urheber beabsichtigt? Nicht, soweit der Urheber in standard-getreuem HTML veröffentlicht. Dafür sollten seine Autorenwerkzeuge oder sein Herausgeber sorgen — andernfalls hat er auch schon jenseits der Kopienfrage ein Problem, denn jeder Browser könnte seine Publikation eventuell unterschiedlich abbilden.

Der potentielle Schaden durch PDF-Konvertierung zum Speichern von HTML-Dokumenten

Bis hierhin könnte man sagen:

  1. Wer es mit dem Zitieren ganz genau nimmt kopiert HTML als HTML.
  2. Vorausgesetzt, man begnügt sich mit einer — für Dritte nicht nachvollziehbaren — Offline-Kopie, und weiter vorausgesetzt, bei der Umwandlung in PDF wird der Anblick festgehalten, den das HTML-Dokument heute in einem modernen Browser bietet, schadet die Funktion nicht.

Genau letzteres bezweifle ich jedoch. Um mit einer Quelle auf meinem Rechner vernünftig arbeiten zu können, muß ich sie schnell und zuverlässig finden und ebenso schnell und einfach Teile daraus kopieren können.

Beginnen wir mit der Auffindbarkeit der Quelle. Citavi verfügt zwar über eine PDF-Suche — doch was ist, wenn ich damit gerade mal nicht arbeite? Wenn ich z.B. mit der betriebssystem-internen Suche arbeite, da ich gleichzeitig auch noch persönliche E-Mails oder Dokumente durchsuchen will, die von Citavi nicht indexiert werden? PDF für die Stichwortsuche zu indexieren ist generell fehleranfälliger als bei Dokumentformaten, die auf XML basieren. (In der Wikipedia stünde vor diesem Satz „Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen ausgestattet“… Sorry, ich mache mich auf die Suche und reiche Belege nach, wenn LeserInnen dieses Blogs dies bezweifeln. Ich bitte ggf. um Kommentierung hier im Blog.)

Und was ist, wenn ich meine Quelle gefunden habe? Jeder, der schon mal versucht hat, größere Mengen an Text oder gar Tabelleninhalte aus einem PDF-Dokument zu kopieren weiß, daß dies kein weiterverarbeitungsfreundliches Format ist. Ein gewöhnlicher Web-Browser bietet zudem beim Betrachten eines HTML-Dokuments nützliche Zusatzfunktionen, die beim Betrachten eines PDFs fehlen.

Allgemeiner formuliert: Es droht Informationsverlust

HTML-Dokumente sind relativ strukturiert und transparent aufgebaut. Eine Konsequenz daraus ist, daß sie sich nach Belieben in viele andere Formate verarbeiten lassen, u.a. in PDF. Für PDF gilt das umgekehrt jedoch nicht. Jedes mal, wenn man ein Dokument aus einem verhältnismäßig strukturierten Format in PDF umwandelt, geht man ein hohes Risiko ein, Informationen unwiederbringlich zu verlieren.

Softwareentwickler haben in den vergangenen Jahren und Jahrzehnten eine Menge Arbeit in die Entwicklung von Anwendungen zur Volltextsuche, Extraktion strukturierter Textelemente etc. aus PDFs gesteckt. Der britische Naturwissenschaftler Duncan Hull hat vor zwei Jahren in einer wunderbaren Vortrags-Folie festgehalten, wie verrückt das ist: Wissenschaftsautoren verarbeiten die Kuh zu einem Hamburger, wollen dann aber die Kuh zurück haben…
Metadata or Meatdata? The PDF "hamburger"...

Wissenschaftsautoren verlustbehaftete Webarchivierung empfehlen — können oder dürfen wir das?

Die Wissenschaftsöffentlichkeit ist freilich ein komplexes System. Insbesondere Autoren, deren Werke begutachtet oder veröffentlicht werden müssen, können sich nicht immer und ohne weiteres aussuchen, in welchen Formaten dies geschieht.

Bei der Archivierung zwecks persönlicher wissenschaftlicher Weiterverarbeitung ist das ganz anders. Hier kann ich mich für die zweckmäßigste und zugleich nachhaltigste Vorgehensweise entscheiden: HTML-Seiten zu kopieren, statt sie (nur) in PDF konvertiert zu „archivieren“. Mit einem Produkt, daß den Benutzern etwas anderes nahelegt, habe ich schlimme bibliothekarische Bauchschmerzen.

Was nun?

Nach dem oben gesagten mag es überraschend klingen, aber: Gegen eine PDF-Konvertierungsfunktion in einem Literaturverwaltungsprogramm habe ich grundsätzlich nichts einzuwenden. Aus den oben genannten Gründen halte ich es nur für problematisch, wenn die Platzierung und Beschreibung dieser Funktion nahelegt, daß es zweckmäßig oder normal sei, HTML-Dokumente zum Abspeichern und späteren Weiterverarbeiten zunächst in PDF-Dateien zu konvertieren.

Die Entwicklung von Literaturverwaltungsprogrammen hat gerade im Bereich der Webzitierung noch jede Menge Raum für Innovation. Wie wäre es etwa, die Literaturverwaltung im Hintergrund eine zitierbare Webkopie mit WebCite, Wayback oder Diigo (s.o.) anlegen zu lassen, auf die dann im Quellennachweis automatisch ebenfalls verwiesen wird?

Lambert Heller

Einsortiert unter:1. Geschlossene, lokale Systeme, Formate Tagged: Citavi, Feature, PDF, Website-Konvertierung

Tags:Aggregator, PDF

| Tagged Aggregator, PDF

Werkzeuge zum Speichern und Wiederfinden gefundener Informationen

By Lambert Heller on 9. Februar 2011

Social-Bookmarking-Dienste und Literaturverwaltungs-Programme dienen einem sehr ähnlichen Zweck, es handelt sich um Werkzeuge zum Speichern und Wiederfinden gefundener Informationen. Unter dieser Überschrift habe ich ein Unterkapitel des Lehrbuchs Lernen und Lehren mit Technologien (L3T) geschrieben, das vor ein paar Tagen erschienen ist.

Das Unterkapitel (im unten eingebundenen Kapitel Abschnitt 6, ab Seite 6) richtet sich nicht an Information Professionals, sondern quasi an “Endnutzer”, die wissen wollen, wie und wozu diese Werkzeuge benutzt werden, und welches der zahlreichen Produkte im Kontinuum zwischen Social Bookmarking und Literaturverwaltung zu ihnen passen könnte. Es handelt sich um eine Open-Access-Publikation, d.h. der Text kann, z.B. in Tutorials, nachgenutzt werden.

Literatur und Information – Datenbanken, Fachliteratur, Literaturrecherche und -verwaltung
View more documents from L3T – Lehrbuch für Lehren und Lernen mit Technologie.
Tags:L3T, lernen, Reference Management, Social Bookmarking

| Tagged Aggregator, L3T, lernen, Reference Management, Social Bookmarking | 5 Responses

Beyond the PDF, oder: Wege zum wissenschaftlichen Publizieren 2.0 und zur Bibliothek 2.0

By Lambert Heller on 28. Januar 2011

Zu schade, daß ich den Workshop Beyond the PDF nicht besuchen konnte. Zwei Diskussionen scheinen diese Veranstaltung geprägt zu haben.

1. Die Weiterentwicklung originärer Web-Medien zu vollwertigen wissenschaftlichen Publikationswerkzeugen.

Der Workshop war von vornherein größenwahnsinnig. Aber die Teilnehmer haben recht: Je früher sich die Communities der Wissenschaftsautoren von PDF, Microsoft Word, ISI Journal Impact Factor etc. verabschieden, desto besser. Sicher, man kann versuchen, all diese Dinge zu reparieren. So geben sich einige engagierte Entwickler bei Microsoft Research Mühe, Word und Co. ein paar neue Tricks beizubringen. Auch das ist verdienstvoll. Aber der Aufwand für ein Upgrade vom wissenschaftlichen Publizieren 1.0 auf 1.1 ist größer, als gleich auf 2.0 umzusteigen. Originäre Web-Werkzeuge und -Konzepte wie HTML, Wikis, Weblogs, Alternative Metriken etc. sind grundsätzlich besser dazu geeignet, die Potentiale des Webs für das wissenschaftliche Publizieren zu heben. Iterative und Mikro-Publikationen, Interaktion und Nachnutzbarkeit von Forschungsergebnissen, transparente und entwicklerfreundliche Werkzeuge seien hierzu nur als Stichworte genannt.

Neue Komponenten für den Publikations-Workflow erfinden

Der Fascinator vom Australian Digital Futures Institute (ADFI) ist so etwas wie ein persönliches Repository für digitale Objekte. Man kann damit diese Objekte sowohl auf dem Desktop zuhause als auch öffentlich im Web organisieren, browsen, in andere Formate konvertieren, taggen und betrachten. Fascinator soll eine Art Pipeline sein: Ein Objekt kann ein Word-Dokument, ein Digitalfoto, aber auch ein automatisch aufgepicktes Item aus einem ATOM Feed sein; das Ziel, an/in dem das fertig bearbeitete, strukturierte, sortierte… Objekt ankommt, mag ein Ebook-Lesegerät, ein WordPress-Blog, ein LMS oder auch ein “richtiges” Institutional Repository sein. Varianten der freien Software Fascinator sollen z.B. auch das gemeinsame Konvertieren und Sortieren von Items im Team unterstützen. Peter Sefton nennt in seiner Präsentation zum Workshop die starke Prämisse hinter Fascinator:

“Consider the limits of mainstream authoring systems — we will be dealing with them”

(Die Metapher des Repositories als Pipeline habe ich von Wolfram Horstmann geborgt, der sie in einem etwas anderen Zusammenhang (PDF-Link) eingeführt hat.)

Ganze Autoren-Werkzeuge weiterentwickeln

Um die Defizite der Autoren-Werkzeuge zu kompensieren kann man zusätzliche Komponenten bauen — oder vorhandene Web-Werkzeuge umkrempeln. Letzteres versucht die Firma Solvitor LLC mit ihrer WordPress-Weiterentwicklung Annotum. Mit WordPress, so die Idee, sollen XML-Dokumente unter Einhaltung verbreiteter Standards des wissenschaftlichen Publizierens (erwähnt wird die NLM DTD; zum Konzept DTD vgl. Wikipedia) strukturiert, bearbeitet und ausgeben werden können — allein mittels der vertrauten grafischen Benutzeroberfläche der Weblog-Software. Dazu müssen natürlich auch Features zur gemeinschaftlichen Bearbeitung und Versionisierung von Texten eingeführt werden. Last not least findet man Merkmale von Textsatzsystem wie LaTeX: Literaturverwaltung sowie die Erstellung von Formelsatz, Diagrammen etc. sollen ebenfalls unterstützt werden.

…oder fehlende Features durch Plugins ergänzen

Überhaupt, Literaturverwaltungs-Werkzeuge. Bisher sind sie praktisch ausschließlich für die Textverarbeitung am PC zu haben. Martin Fenner zeigt, wie dieses Defizit mit Hilfe der Konzepte von WordPress behoben werden kann. Sein Plugin greift die ohnehin in WordPress vorhandene Linkverwaltung auf und integriert sich als Funktion zum Suchen und Einfügen vollwertiger Quellenangaben in den Blogeditor. Dieser Lösungsansatz ist pragmatisch und elegant. Ob RefWorks, Mendeley, Zotero, Citavi, EndNote Web & Co. irgendwann einmal WordPress-Plugins zur Integration mit der eigenen Online-Literaturliste herausbringen? (Vgl. die von unabhängigen Entwicklern bereitgestellten rudimentären WordPress Plugins für BibTeX, BibSonomy und CiteULike.)

Die Liste der weiterentwickelten Werkzeuge ließe sich fortsetzen. So zeigen Daniel Mietchen, Konrad Förstner und Mark Hahnel, wie ein wissenschaftlicher Aufsatz aussehen könnte, der in einem Wiki geschrieben und reviewt wird, und dort dauerhaft gefunden und gelesen werden kann. Einige weitere der insgesamt 28 Workshop Paper setzen ebenfalls an Werkzeug-Fragen an.

2. Die Erforschung des Publizierens mit dem Ziel der besseren Unterstützung wissenschaftlicher Autoren und ihrer Rezipienten im Web.

Zu dieser klassisch bibliothekarischen Fragestellung passt die Entwicklung von Ontologien, die das Annotieren digitaler Publikationen erleichtern. Denn egal, ob Autoren in Word, Fascinator, WordPress oder anderen Umgebungen ihre Texte schreiben werden — es muß einfach sein, sich in verschiedenartigen Anmerkungen auf das zu beziehen, was andere schon gesagt, gezeigt, bewiesen haben. Mehr noch, man muß diese Vorarbeiten einfach heranziehen, zitieren, überarbeiten können, und bestimmt noch manches mehr. Entscheidend ist nur: Welcher Art die Bezugnahme ist, daß sollte auch nachträglich maschinenlesbar festzustellen sein. Als Rezipient will ich differenziert danach suchen odere browsen können, wer das Paper von XY nur zitiert hat, wer mit den Daten von XY neue Untersuchungen angestellt oder aber wer die These von XY widerlegt hat. Daher ist es überaus verdienstvoll, wenn, zum Beispiel, David Shotton und Silvio Peroni ihre neuen SPAR-Ontologien zum Annotieren in digitalen Publikationen (PDF-Link) zur Diskussion stellen.

Yolanda Gil beschäftigt sich mit der Frage, wie wir die Herkunft eines Artefakts in einer digitalen Publikation ausdrücken werden — ebenfalls eine Frage, deren Bedeutung man nicht hoch genug einschätzen kann.

Autoren sollten natürlich nicht wissen müssen, wie Annotationen oder Provenienz digital ausgedrückt werden — die komfortable grafische Benutzeroberfläche des jeweiligen Editors wird diese Details zum verschwinden bringen, genau so wie wir heute Word-Dokumente oder WordPress-Blogposts  produzieren, ohne genau zu wissen, wie sie strukturiert sind. Aber was ist mit Dingen, von denen wir selbstverständlich sprechen: “Klar, ich kenne das Papier von XY” — wie kenne ich es, wie habe ich es gelesen oder auch “nicht-gelesen” (z.B. überflogen)? Mit dieser hoch relevanten Frage beschäftigt sich Jodi Schneider in ihrer Präsentation. Ihre Erkenntnisse helfen uns,  im Webzeitalter praktische Antworten auf eine ebenfalls klassische bibliothekarische Frage zu finden: Wie können wir die Leser und das Lesen als solches besser unterstützen?

Auch solche Antworten werden größtenteils hinter den grafischen Oberfläche der Werkzeuge für Autoren und Rezipienten verschwinden. Den Fortschritt, den diese Antworten bringen, werden wir nur noch gelegentlich zu spüren bekommen. Wenn wir etwa schmunzeln bei der Erinnerung an das Anklicken klobiger PDF-Dateien, an unübersichtliche Browser-Plugins und an all die HTML-Browser-Funktionen, die uns beim Umgang mit diesen Dingern immer wieder fehlten. Nur gut, daß in der Wikipedia festgehalten sein wird, was PDF-Dateien waren, und wie die wissenschaftliche Öffentlichkeit sie dann eines Tages losgeworden war.

Tags:Lesen, PDF, Publishing, Reference Management, Wiki, WordPress

| Tagged Aggregator, Lesen, PDF, Publishing, Reference Management, Wiki, WordPress | 8 Responses

Präsentation unserer Konzeptstudie bei der 1. DGI-Konferenz

By Lambert Heller on 7. Oktober 2010

Wir stellen unsere Konzeptstudie im Rahmen der heute stattfindenden 1. DGI-Konferenz in Frankfurt/Main vor. Hier dokumentieren wir den Foliensatz zu unserem Vortrag.


Einsortiert unter:Allgemein

| Tagged Aggregator

Article review & recommendation clubs – a use case I miss about CiteULike, Zotero, BibSonomy, Mendeley and Co.

By Lambert Heller on 20. September 2010

I’m happy about the recent buzz on features missing in web reference management systems. In this posting I do not only ask for some more particular features. For my needs, a whole use case seems to be missing: The management of a small, but insightful review and recommendation club with my peers (say, german LIS people interested in web topics — not too far fetched ;-) ).

From services like Twitter Times I’m used to get a brief overview over the most important links at any moment, whenever I like. I can’t stress enough the importance of those filter applications for my whole web information consumption. (Cf. Clay Shirkys Filter Failure-theme two years ago.) Twittertim.es lists many links twittered by people whose opinion and taste I care about. They are filtered and sorted by popularity in this special mini-population of Twitter users, selected only by me. At any time I can see what they have noticed, read, sometimes annotated and/or explicitely recommended.

One obvious problem about this approach is that I’m only getting signal from those peers who are comfortable with sharing their findings on the web, and on this plattform. And there’s at least one other, bigger, problem. What people like about Twitter ist the easiness of commenting, sharing and the social gestures around in those activities.  What they don’t like is to sort and order these activities. In some cases, encouraging people in a strong and lasting way may help with this problem — cf. Peter Subers downright plea to use OATP (the acronym of Open Access Tagging Project), sometimes combined with other selected keywords, to mark their findings about Open Access Publishing. This kind of tagging project might be a model for academic peer groups similar in dimension and broadness. But it seems not doable for groups like the german LIS people interested in web topics I mentioned above.

So I’m left with quiet a lot of good signal but still far too much noise. The signal is good (for me, at last) because of a social choice I already made. The noise seems to be inevitable, because of the usage pattern Twitter facilitates.

All elements for facilitating such a use case in CiteULike, Zotero, Mendeley, BibSonomy & Co are, of course, already there! You are able to create groups, and it’s easy to post your findings (be it blog postings, DOI-identified articles, books or else) to such a group, both in addition to or instead of your personal library. It’s also easy to annotate, rate or even review your findings. But what seems to be missing are really insightful views on what you have found collectivly.

To be more precise, I do not only want to see every posted item in reverse chronological order, but also

  • only items that have a minimal rating of Y and/or have notes/reviews from group members, and
  • same as above, but only items that have a rating, review or the like — but at least from Z group members.

Perhaps there’s already some service in the social bookmarking space that does all that, and that I’m not aware of? For sure, it’d be nice to have those features integrated into the reference management workflow.

Tags:BibSonomy, CiteULike, Community, Mendeley, Reference Management, Social Software, Twitter, Use case, Zotero

| Tagged Aggregator, BibSonomy, CiteULike, Community, Mendeley, Reference Management, Social Software, Twitter, Use case, Zotero | 5 Responses

Karen Hellekson: Breaking the primacy of print

By Lambert Heller on 20. September 2010

Wissenschaftler müssen daran interessiert sein, ihre Forschungsergebnisse in anerkannten Journals zu publizieren. Es wird unterstellt, daß in den Augen von denjenigen, die über Projektanträge, Berufungen etc. entscheiden, die Aufzählung der Journals in Zitations- und Aufsatzdatenbanken wie Web of Science oder Scopus zählt. Auch die Aufnahme in lizensierte Journal-Aggregatoren oder bibliographische Fachdatenbanken und -suchdienste  mag eine Rolle spielen. Was geschieht, wenn sich die Kriterien für die Aufnahme in diese Datenbanken und Suchdienste einseitig am Modell der gedruckten Fachzeitschrift orientieren? — Karen Hellekson, Herausgeberin des peer-reviewten Open-Access-Journals Transformative Works and Cultures schildert diese Misere sehr anschaulich:

„(… I)ndexing services seek to ensure quality by going down a checklist of current best practices in the journal-publishing industry and only listing journals that fulfill these criteria. Yet best practices have clearly not yet been able to adequately account for online-only publications, or online-only publications would not be treated differently by academic institutions during review for tenure and promotion.

When I fill out forms, surveys, and index submission forms related to TWC and its practices, it becomes clear how strongly the print model affects every aspect of what is considered the norm for publishing. I skip entire sections: I don’t know the number of subscriptions because we don’t use a subscription model. I can’t estimate readership because many of the user accounts are obviously spam accounts, and plenty of readers never create a user ID. We don’t offer different levels of access to different people. We don’t have office expenses because we don’t have an office, instead using freeware OJS to shepherd copy through the publication process. I can’t estimate readership for an essay because our copyright permits the author, or anyone else, to repost, which bleeds off readers and thus they aren’t counted by the software. We have no income from reprint or author fees because we don’t charge those fees. All the questions meant to assess readership and subscriptions are, with an open access model, nearly impossible to estimate. Ironically, the traditional journal-publishing world seeks to maximize impact by minimizing access, even though study after study has shown that people are far more likely to read and cite publications available in full online.“

via Breaking the primacy of print « Symposium Blog.


Einsortiert unter:Allgemein, Open Access, Publikationsform, Qualität

| Tagged Aggregator, Open Access

Vermittlung von Informationskompetenz? — Vier Thesen für die Zeit danach.

By Lambert Heller on 8. September 2010

Ich bin angefragt worden, morgen (am 9.9.2010) im Rahmen der jährlich stattfindenden Konferenz des Gemeinsamen Bibliotheksverbunds (GBV) in einer Diskussion zum Thema Informationskompetenz Stellung zu beziehen. Bei dieser Gelegenheit breche ich mal mit der Konvention der Powerpoint-Folie und schreibe meine vier Thesen zum Thema statt dessen hier ins Blog. Mündliche Ausführung vor Ort, nachträgliche schriftliche Ausformulierung als kleine Serie hier im Blog o.a. sind nicht ausgeschlossen.

Continue reading “Vermittlung von Informationskompetenz? — Vier Thesen für die Zeit danach.”

Posted in Allgemein | Tagged bibcamp, GBV, gbvvk10, gvk10, informationskompetenz, lernen, web | 5 Responses

Ein kollaborativ erstelltes Literaturdaten-Verzeichnis für ein kollaborativ erstelltes Handbuch

By Lambert Heller on 25. August 2010

Sandra Schaffert und Martin Ebner koordinieren derzeit die Entstehung eines interdisziplinären Lehrbuchs rund um das Thema Lernen und Lehren mit Technologien (L3T), das im Frühjahr 2011 erscheinen soll.

Continue reading “Ein kollaborativ erstelltes Literaturdaten-Verzeichnis für ein kollaborativ erstelltes Handbuch”

Posted in Allgemein | Tagged CiteULike, eLearning, L3T, Tagging, Technology Stewardship | 3 Responses

« PreviousNext »

Lambert Heller

Lambert Heller
Librarian 2.0, interested in knowledge management, publishing and communities on the web. Likes Open Access / Open Data.

About me / Impressum

I am a hard bloggin' scientist, a Biblioblogger and Leibniz Blogger.

License

CC0
To the extent possible under law, Lambert Heller has waived all copyright and related or neighboring rights to Biblionik. This work is published from Germany.

Copyright © 2012 Biblionik.

Powered by WordPress and Hybrid.