Bitte testen: Alpha-Release unserer Datenmanagement-Software

d:swarm – Datenmanagement mit Schwarm-Intelligenz

Im Teilprojekt Datenmanagement-Plattform ist ein wichtiger Meilenstein erreicht. Wir freuen uns, den Alpha-Release bekanntgeben zu können. Mit dem Release steht auch der Name für unser dem Sharing-Gedanken verpflichteten Datenintegrations- und -modellierungswerkzeug fest: d:swarm. Das ruft – hoffentlich positive – Assoziationen von Schwarm-Intelligenz, schwärmen, Fleiß und effektiver Zusammenarbeit auf. Zunächst geht es uns aber um die Verwirklichung des grundlegenden Gedankens einer hochflexiblen Datenintegrationslösung mit grafischer Benutzeroberfläche, die das Management von Daten aus den Händen von Programmierern in die Hände derjenigen Personengruppe gibt, in die es gehört: die von Datenexperten, Systembibliothekaren, Knowledge Workers.

Eben diese Personen sprechen wir mit unserem halb-öffentlichen Alpha-Release von d:swarm an: Wir bitten Sie, unsere Web-Anwendung zu testen und dabei Ihr gesammeltes Wissen über Daten und Transformations-Workflows einzubringen. Bereits im frühen Stadium können wir so eng am tatsächlichen Bedarf unterschiedlicher Nutzer und Institutionen entlang entwickeln und unsere Lösung zu einer wahrhaft generischen machen, mit der sich die individuellen Einzelanforderungen abbilden lassen.

screenshot_dswarm

Funktionalität zuerst

Schönheit ist nicht die primäre Ambition unserer Alpha-Version. Ästhetik ist uns äußerst wichtig, sie folgt jedoch später: Unsere Design-Ideen für die Oberfläche sind derzeit noch nicht umgesetzt. Zentrales Anliegen ist für uns vorerst ein Proof of Concept, dass das Management und Zusammenführen von Daten aus verschiedenen Quellen und von höchst unterschiedlichen Formaten – von denen einige, wie z.B. MABXML oder MARCXML, strukturell äußerst kompliziert sind – über ein flexibel anpassbares Werkzeug möglich ist.

Daten zu Ressourcen so aufzubereiten, dass sich neue Dimensionen im Information Retrieval eröffnen, ist eine Hauptzielsetzung von d:swarm. Ein Beispiel aus der bibliothekarischen Praxis: Im Moment ist es äußerst schwierig, wenn nicht gar unmöglich, sich aus einem Katalog wie der ZDB eine Liste aller laufenden deutschsprachigen wissenschaftlichen Zeitschriften ausgeben zu lassen, etwa um eine Analyse ihrer Abdeckung im Web of Science oder in Scopus durchzuführen. Oder auch nur um eine Aussage zum aktuellen Stand des Deutschen als Wissenschaftssprache zu treffen. Nicht, dass entsprechende Daten nicht vorlägen: In der ZDB sind z.B. Verlaufsinformationen natürlich enthalten. Sie werden allerdings nicht in maschinenlesbarer Form verzeichnet und deshalb auch nicht indexiert. Folglich kann mithilfe der traditionellen Datenbank-Abfrage auch keine Suchanfrage formuliert werden, die den Erscheinungsverlauf betrifft. Schwierig ist es auch mit der Sprache von Zeitschriften: Während das Erscheinungsland verzeichnet und auch suchbar ist, findet man bei den Titelinformationen i.d.R. keine Angaben zur Sprache. Die Frage nach der Wissenschaftlichkeit der jeweiligen Zeitschrift lässt sich ggf. anhand ihrer klassifikatorischen Sacherschließung bewerten. Sie als Abfrage zu formulieren, ist jedoch ein Ding der Unmöglichkeit.

Die naheliegende Lösung für diesen ganzen Problemkreis heißt intelligente Datenintegration und Linked Data. Wenn wir uns von der immer noch gängigen datensatzbasierten Verarbeitung von beschreibenden Daten entfernen und zu einem objektbezogenen Datenmanagement übergehen, können wir in Zukunft sicherstellen, dass sich jede beliebige Abfrage an unsere Metadaten stellen lässt. Bei einem solchen Ansatz stellt jede Informationseinheit eine Ressource dar, die über beliebig komplexe Beziehungen mit anderen Ressourcen verknüpft ist. Das sinnvolle Speicherformat für Informationen dieser Art ist ein Graph. Aus diesem Grund verwenden wir in d:swarm ein Graphenformat als Speicherformat. Es ist in der Alpha-Version ein simples, fest vorgegebenes Format, das sich an den DINI-Empfehlungen für die RDF-Präsentation bibliographischer Daten orientiert. In Zukunft wird das interne Speicherformat über einen Schema-Editor flexibel konfigurierbar sein.

Vom Graphen zu Linked Open Data

Als Datenbank-Lösung haben wir für d:swarm die Open-Source-Graphdatenbank Neo4j gewählt, die sich in der Community zunehmender Beliebtheit erfreut. Für uns ist Neo4j nicht nur wegen seiner Flexibilität interessant, sondern auch, weil es ein schönes Visualierungswerkzeug mitbringt, das die Graphdaten auf eindrucksvolle Weise explorierbar macht.

graph

Interessierte Tester können die Datenstrukturen im Datenhub selbst erkunden, wobei wir Sie mit der Dokumentation zum Alpha-Release unterstützen. Aus den internen Graph-Daten, wie sie hier präsentiert sind, schließlich Linked Open Data zu generieren, ist eine Prämisse unseres Ansatzes, der d:swarm von anderen Lösungen unterscheidet. Denn unser Motto ist: „Raus aus dem Daten-Silo!“, und wenn wir das Konzept Linked Open Data für den großen Bereich des kulturellen Erbes im Allgemeinen und den der bibliographischen Daten im Besonderen konsequent weiter verfolgen, erreichen wir einen Zustand, mit dem Daten-Silos mit bibliothekarischen, archivarischen oder musealen Daten, und seien es globale, obsolet werden.

So können Sie beitragen

Unsere Web-Applikation ist unter dieser Adresse erreichbar: http://sdvdswarm01.slub-dresden.de. Wenn Sie sich an den Alpha-Tests beteiligen wollen, schreiben Sie uns, und wir nehmen Sie gerne in den Kreis der Tester auf. Über Ihr Feedback, Ihre Ideen und Ihre Meinung freuen wir uns.