Stimmen

Common Crawl — Beginn einer erneuten Revolution in der Erschließung und Erforschung des Webs?

“our goal is to provide a high-quality, open corpus of web crawl data” (Common Crawl)

“An openly accessible archive of the web — that’s not owned and controlled by Google — levels the playing field pretty significantly for research and innovation.” (James Walker)

Die vor vier Jahren gegründete Stiftung Common Crawl konnte Anfang dieses Monats erstmals einen Index von fünf Milliarden Webseiten veröffentlichen, den sie mit eigenen… [Weiterlesen]

Eine Woche, vier kurze Links: Wikidata, total-Impact, KF8, Umfrage

  1. Mein Link der Woche: Mit dem Projekt Wikidata will die Wikipedia das Verhältnis zwischen den Infoboxen in Wikipedia-Artikeln und der DBpedia vom Kopf auf die Füße stellen. Statt Daten nachträglich aus den Boxen zu extrahieren soll es eine Datenbank geben, aus der sich die Infoboxen die benötigten Attribute und Werte ziehen. Irgendwann soll man die Inhalte der Datenbank dann im Wikipedia-Stil bearbeiten können. Wenn dann auch noch bibliographische

[Weiterlesen]