Dieser Tage findet in Hamburg die fünfte Konferenz zu Semantic Web in Libraries (SWIB13) statt. Dorothea Salo fordert in ihrer Keynote, dass BibliothekarInnen endlich aufwachen und Linked-Data-Technologien zum Einsatz bringen müssen: „Disrupt MARC with Linked Data for great justice!“ Sie beschreibt die Schwierigkeiten, die neuen Konzepte den BibliothekarInnen in täglicher Praxis oder in Aus- und Fortbildung nahe zu bringen. Nicht nur mangele es oft an verständlichen, anschaulichen Darstellungen des Nutzens von Linked Data. Auch mache es die vorhandene Infrastruktur nicht gerade leicht, Linked Data zum Durchbruch zu verhelfen. Häufig fehlen einfach zu bedienende Werkzeuge und grafische Oberflächen.
Unser sächsisches Konsortium entwickelt eine Open-Source-Software, mit der beliebige Daten aus verschiedenen Informationsquellen in einer grafischen Oberfläche integriert und vernetzt werden können. Das ist für Kultureinrichtungen wie Bibliotheken, Archive und Museen interessant, weil hier häufig Daten in verschiedenen Systemen verwaltet und präsentiert werden, die eigentlich miteinander in Beziehung stehen. Manche setzen Discovery-Systeme ein, die aber nichts an der grundsätzlichen Unverbundenheit der Daten mit den vielfältigen Informationen aus anderen Einrichtungen oder aus den Weiten des Internets ändert.
Die Datenmanagement-Plattform (DMP), die wir in unserem Projekt entwickeln, wird dieses Problem beheben. Daten aus beliebigen internen und externen Datenquellen können hier so miteinander verknüpft werden, dass ein Netzwerk von Informationen entsteht, das die Grundlage für eine Informationsrecherche neuer Art bildet. Dabei kann jede AnwenderIn der DMP die zwischen den Quelldaten zu erzeugenden Verknüpfungen und die an ihnen vorzunehmenden Transformationen hochflexibel konfigurieren. Einrichtungen bestimmen so selbst, welche Daten sie auf welche Weise in ihren Präsentationssystemen darstellen, damit sie den individuellen Bedürfnissen ihrer NutzerInnen bzw. KundInnen bestmöglich entsprechen. Dabei können sie auf Transformationsroutinen (sogenannte Extraktions-, Transformations- und Lade-Logiken) zurückgreifen, die andere Anwender der DMP definiert und publiziert haben. Die Modellierung bzw. Anpassung dieser Logiken erfolgt in einem nutzerfreundlichen grafischen Interface, das SystembibliothekarInnen keine Hürden in den Weg stellt.
Zentrales Anliegen der Datenintegration ist die Zusammenführung und Deduplizierung von unterschiedlichen Metadaten, die dasselbe Objekt referenzieren. Wir greifen dabei übrigens auf Funktionen von metafacture zurück, einem Tool, das u.a. vom Projekt Culturegraph verwendet wird. Ein weiteres wichtiges Ziel ist die Hierarchisierung von Daten entsprechend dem FRBR-Modell, so dass verschiedene Expressionen und Manifestationen eines Werks den EndnutzerInnen sinnvoll und verständlich präsentiert werden können. Die aggregierten Daten werden innerhalb der DMP in einem Graphenformat gespeichert und nach außen in einem RDF-Format als Linked Data bereitgestellt, die auf Wunsch offen publiziert werden können.
Bei Linked Data spielt der Grad der semantischen Verknüpftheit eine entscheidende Rolle. Um diesen zu erhöhen, wird die DMP die Daten über APIs mit Informationen wie Normdaten, Geodaten oder Fakten aus der LOD Cloud anreichern. Ein wesentliches Element der DMP wird die Anbindung unseres Anreicherungsservices SLUBsemantics sein, mit dessen Hilfe weitere semantische Deskriptoren erzeugt werden, die eine multilinguale Informationsrecherche ermöglichen.
SLUBsemantics kurz erläutert
Die angereicherten semantischen Daten stehen als zusätzliche Informationen für die Präsentationssysteme bereit und erlauben neuartige Funktionen der Wissens-Exploration, wie sie etwa auch von Google Knowledge Graph realisiert werden. Die Möglichkeit, diese Daten ohne zusätzliche Tools wieder zurück in die LOD Cloud zu geben, ist dabei die große Chance, das Semantic Web semantischer zu machen.
An dieser Stelle geben wir regelmäßig Einblicke in die Entwicklung der Datenmanagement-Plattform. Für diejenigen, die an der SWIB13 teilnehmen: In der Session „Base Technology: The Web“ (Mittwoch 13:45 bis 15:30 Uhr) wird es einen Lightning Talk zum Gesamt-Projekt geben. Am Ende der Session „Repositories Enhanced“ (Mittwoch, 16:00 bis 17:30) stellen wir das Teilprojekt Electronic Resource Management vor.