VMD Massendatenanalyse
D0150-R01 | Basisdienst in der Domäne Elektronische Verwaltungsarbeit
Kurzbeschreibung
Dieser Dienst umfasst eine Umgebung und Werkzeuge, die es Datenwissenschaftlern, Analysten und anderen Benutzenden ermöglichen, sicher und ggf. behördenübergreifend mit Daten zu arbeiten, Hypothesen zu testen, Modelle zu entwickeln und neue Erkenntnisse zu gewinnen (Data-Lab oder Data-Sandbox). Hierbei können große Datenmengen (Big-Data: in den Dimensionen Volumen, Geschwindigkeit und Vielfalt) verarbeitet werden. Dieser Dienst stellt zudem geeignete Instrumente für die Unterstützung für behördenspezifische Controllingzwecke bereit.
Kernfunktionalitäten
- Datenquellen integrieren und Daten aufbereiten: Verschiedener Datenquellen, einschließlich strukturierter und unstrukturierter Daten, Datenbanken, Data-Warehouses, Data-Lakes, Datenströme, APIs und Dateien können integriert werden. Mit Hilfe von Werkzeugen zur Datenaufbereitung, -bereinigung und -transformation werden große Datenmengen für die Analyse vorbereitet.
- Daten interaktiv analysieren: Über eine interaktive Benutzeroberfläche oder Entwicklungsumgebung wird ermöglicht, Abfragen zu erstellen, zu bearbeiten und auszuführen, um große Datenmengen zu erkunden und Muster zu identifizieren. Dabei werden verschiedene Abfragesprachen (z.B. SQL, Python, R oder Scala) und Analyse-Tools unterstützt.
- Datenexperimente und Vorhersagen ausführen: Es können Hypothesen formuliert, Experimente durchgeführt und Modelle entwickelt werden, um Massendaten zu analysieren und Vorhersagen zu treffen. Die Integration von Machine-Learning-Bibliotheken und -Frameworks ermöglicht das Training von Modellen und die Verbesserung von Vorhersagen.
- Daten versionieren und rückverfolgen: Analysen, Experimente und Modelle können versioniert werden, um Änderungen nachzuverfolgen und reproduzierbare Ergebnisse sicherzustellen. Die Datenprovenienz kann zurückverfolgt werden, um die Herkunft und den Verlauf der Daten zu verstehen.
- Daten visualisieren: Daten und Ergebnissen können über Diagramme, Grafiken und interaktive Dashboards visualisiert werden. Berichte und Präsentationen können erstellt werden. Alle Analyseprodukte können freigegeben werden, um Erkenntnisse zu kommunizieren und Einblicke zu teilen.
Diensteschnittstellen
- Datenquellen einbinden: Die Massendatenanalyse nutzt den Dienst Datenbewirtschaftung oder andere Datenquellen.
- Datenfunktionen bereitstellen: Über eine serviceorientierte Schnittstelle (API) können grundlegende IT-Services z.B. zur Dimensionsreduktion bereitgestellt und nachgenutzt werden.
- Schnittstellen zu Infrastrukturdiensten: Identity-Access-Management; Standard-Arbeitsplatz und Ultramobile IT; Betriebsplattform und Netze.
Abgrenzung
Der Dienst nutzt Funktionalitäten der Dienste Datenbewirtschaftung und Entscheidungsunterstützung, ohne diese zu ersetzen. Die Datenbewirtschaftung umfasst die Verarbeitung bzw. Aufbereitung innerhalb eines Data-Warehouse. Die Entscheidungsunterstützung umfasst die Instrumente eines BI-Tools.
Informatorische Ergänzungen aus Maßnahmen- und Lösungslandkarte (u.a. aus Portfolio GIB, IT-Rahmenkonzept, VITD-Produktkatalog)
- IT-Maßnahme (bzw. IT-Verfahren): Analytics in der Bundesverwaltung [Programm Dienstekonsolidierung, Auswärtiges Amt; Status: nicht begonnen]
- IT-Lösung(en): Cloudera [BMF/ITZBund; Status: in Umsetzung; Nutzungsverpflichtung: in Klärung]
