Datenkuratierung am SDIL

SDIL Datenkatalog

Im Rahmen des BMBF-geförderten Projektes SDI-X arbeiten wir im Moment am Aufbau eines Verzeichnisses von Big Data Datensätzen aus verschiedensten Bereichen industrieller und akademischer Forschung. Dazu gehören unter anderem

  • offene Datensätze (open data) wie z.B. DBpedia oder LinkedGeoData,
  • Datensätze aus existierenden Datenkatalogen und -repositorien wie z.B. dem UCI machine learning repository,
  • Datensätze, die von Partnern des SDIL aus Industrie und Forschung zur Verfügung gestellt werden sowie
  • Datensätze, die sich aus am SDIL durchgeführten Projekten ergeben und im Rahmen des SDIL „fair share“ Grundsatzes nach Abschluss des Projektes bereitgestellt werden

Oberstes Ziel ist es, den Nutzern des SDIL einen umfassenden und leicht zu erschließenden Datenkatalog bereitzustellen, der eine einfache und effiziente Suche nach geeigneten Daten erlaubt. Zu diesem Zweck werden alle Datensätze bei der Aufnahme in das Verzeichnis mit relevanten Metadaten charakterisiert. Um eine möglichst große Interoperabilität mit bereits existierenden Repositorien zu erreichen werden dazu standardisierte Formate auf Basis von Semantic Web Technologien verwendet. Werkzeuge für die Definition des Metadatenvokabulars sowie zur Annotation von Datensätzen und deren Integration in den Datenkatalog werden im SDI-X Projekt entwickelt und bereitgestellt.

Speicherung und Bereitstellung von Daten

Im Normalfall werden Datensätze innerhalb der SDIL Infrastruktur gespeichert und können von dort unter Berücksichtigung eventueller Zugangsbeschränkungen über den Datenkatalog abgerufen werden. Daten, für die eine Speicherung am SDIL unnötig (z.B. Datensätze aus bestehenden Repositorien) oder aus rechtlichen Gründen nicht möglich ist, können unter Angabe des Anbieters trotzdem im Datenkatalog erfasst werden. In diesem Fall erfolgt eine Weiterleitung zum entsprechenden Anbieter, durch den die Daten nach eventueller Klärung weiterer Nutzungsbedingungen direkt bereitgestellt werden. Die genauen Modalitäten dazu können in Rahmen des Bewerbungsprozesses am SDIL vereinbart werden.

Kuratierungswerkzeuge

Neben den beschriebenen Werkzeugen zum Aufbau, Betrieb und der Wartung des Datenkatalogs planen wir ein breites Repertoire an Diensten, die den kompletten Datenlebenszyklus von der Datenselektion bis hin zu Authoring- und Reparaturfunktionen umfassen. Dazu gehören auch grundlegende Manipulations- und Visualisierungswerkzeuge. Diese werden im Rahmen des SDI-X Projekts entwickelt und nach Verfügbarkeit am SDIL bereitgestellt.