Funktionalitäten

features

Was kann d:swarm im Moment?

Du kannst mit d:swarm in seinem derzeitigen Zustand Folgendes tun:

dswarm_workflow

Das Konfigurieren von Datenressourcen, das Erstellen von Mappings auf ein Zielschema und das Exportieren des Transformationsergebnisses kann mit der d:swarm-Back-Office-Webapplikation gemacht werden. Schau Dir dazu auch unsere „los geht’s“-Sektion an. Diese beinhaltet eien Kurzanleitung zur Verwendung der d:swarm-Back-Office-UI. Beispieldatensätze (d.h. kleine Datensätze) können direkt (vollständig) mit dem Back-Office prozessiert werden.

Desweiteren kannst Du …

  • Dir das Graphdatenmodell Deiner importierten oder transformierten Daten anschauen
  • Skip-Filter definieren (für den gesamten Job, d.h., es werden nur Datensätze durchgelassen, die bestimmte Filterkriterien erfüllen)
  • Datensätze (in dem eingespielten Datenmodell) suchen bzw. Datensatzauswahl definieren (die Vorschau der Mappings bzw. Test-Tasks können damit im Back-Office ausgeführt werden)
  • Mappings kopieren (in ein neues Projekt, welches ein Eingangsdatenmodell mit einem sehr ähnlichen Schema hat, z.B., ein Schema, das an Hand von Beispieldatensätzen generiert wurde, hin zu einem Inbuilt-Schema)
  • Mappings migrieren (in ein neues Projekt, welches ein Eingangsdatenmodell mit einem irgendwie ähnlichen Schem hat, z.B., OAI-PMH MARCXML zu MARCXML)

Stapelverarbeitung

Stapelverarbeitung von größeren Datenmengen kann mit der Task-Processing-Unit für d:swarm (TPU) gemacht werden. Dieser Teil der d:swarm-Datenmanagementplattform wurde initial von der UB Dortmund entwickelt. Du hast die Möglichkeit zwischen zwei Verarbeitungsoptionen zu entscheiden – die Streaming– und die Data-Hub-Variante.

d:swarmStreaming-Variante

Die d:swarm-Streaming-Variante bietet eine schnelle Verarbeitung von größeren Datenmengen an und ist für viele Szenarien anwendbar. Du kannst sie bereit jetzt benutzen. Die Streaming-Variante transformiert die Quelldaten in das generische Datenformat einfach während der Ausführungs des Mapping-Tasks und gibt das Ergebnis der Transformationen auch direkt aus (als XML oder verschiedene RDF-Serialisierungen). Im Gegensatz zur Data-Hub-Variante unterstützt diese Verarbeitungsvariante das Versionieren und Archivieren nicht (d.h. der Data-Hub ist hier nicht involviert). Schau Dir einfach an, wie die SLUB Dresden d:swarm zum Transformieren und Integrieren von bibliografischen Datenquellen einsetzt.

d:swarmData-Hub-Variante

Die Intention der Data-Hub-Variante ist das (versionierte) Abspeichern aller Daten in einem generischen Datenformat (inkl. Provinienz) im Data-Hub. Archivierung und Versionierung von Daten ist nur mit dieser Variante möglich. Solch ein Datenstand könnte auch die Basis für zukünftige Funktionalitäten, wie z.B. Deduplizierung, FRBR-isierung und andere Datenqualitätsverbesserung sein. Im Moment hat die Data-Hub-Variante ein paar Skalisierungprobleme. Deswegen empfehlen wir diese Variante im Moment nicht auf große Datenmengen anzuwenden.