Data Engineering
Die Herausforderung
Mit dem Einzug der Digitalisierung in die Mobilität wird das Auto zu einer Informations- und Kommunikationsplattform. Im Rahmen dieses Paradigmenwechsel vom Autofahrer zum Autopiloten mit dem Ziel des vollautomatisierten und vernetzten Fahrens ergeben sich neue Herausforderungen in der Datenverarbeitung und -übertragung. Das moderne Auto sammelt u.a. Informationen über Standort, Geschwindigkeit sowie von Verkehrsteilnehmern und Verkehrszeichen. Um dieses hohe Datenvolumen zu verarbeiten und Analyseergebnisse zurück in das Auto zu spielen, ist ein nahezu in Echtzeit agierendes System notwendig. Im Projekt sollte daher der technische Lösungsraum für eines solches Analysesystem evaluiert und umgesetzt werden. Ziel war es den leistungsfähigsten Stream-Prozessor zu identifizieren und eine virtualisierbare Umgebung zu entwerfen, die die Bereitstellung der Stream-Prozessoren vereinfacht und deren Ressourcenverwendung im Hadoop Cluster optimiert.
- Anwendungsfall
Führender deutscher Automobilhersteller
Datenverarbeitung von Fahrzeug- und Verkehrsdaten
- Zielsetzung
- System zum Vergleich und Betrieb von Streaming-Strecken
- Aufgaben
- Entwickeln einer Big Data-Plattform
- Virtualisieurng der Plattformumgebung
- Vergleichen und bewerten der Stream-Prozessoren
- Technologie
- Spark
- Samza
- Storm
- Docker
- Kafka
- Hadoop
- HDFS
- YARN
- ZooKeeper
Der Lösungsweg
Zur Identifikation des geeignetsten Stream-Prozessors wurde im ersten Schritt eine lokale Umgebung aufgesetzt, die es erlaubt die unterschiedlichen Stream-Prozessoren zu konfigurieren und zu skalieren. Die einzelnen Prozessschritte der Datenverarbeitung wurden als unabhängige, wiederverwendbare Komponenten umgesetzt. Dies hat den Vorteil, dass die Stream-Prozessoren unverändert verwendet werden können und damit vergleichbar bleiben. Als Voraussetzung der Evaluierung wurden entsprechende Leistungsindikatoren (KPI) und User Stories definiert. Die KPIs beziehen sich dabei auf kundenspezifischen Vorgaben, wie Latenz, Durchsatz oder Funktionalität im Monitoring und der Bereitstellung von Streaming-Aufgaben. Die User Stories bilden darüber hinaus die „Soft Skills“ der Stream-Prozessoren ab. Die anschließende Auswertung gab Aufschluss über Schwachstellen und Optimierungsmöglichkeiten der Datenverarbeitung mit den verschiedenen Stream-Prozessoren und ihrer Einzelkomponenten. Im nächsten Schritt wurde der entwickelten Proof-of-Concept auf dem kundeneigenem Hadoop Cluster etabliert. TIQ Solutions setzte dies auf Basis einer virtualisierten Umgebung über Container und einer leicht skalierbaren Big Data-Architektur um.
Das Ergebnis
Es wurde eine Big Data-Plattform bereitgestellt, auf der Stream-Prozessoren getestet und analysiert werden können. Nach Abschluss der Evaluation erhielt der Kunden eine konkrete Empfehlung für den geeignetsten Stream-Prozessor und die hierzu optimale Konfiguration der Streaming-Datenverarbeitungsstrecke. Unser Kunde kann jetzt eigenständig Datenverarbeitungsstrecken zwischen seinen Fahrzeugen und dem Analysesystem anwendungsfallorientiert erstellen und testen. Speziell ist die Konfiguration und Skalierung der Prozessschritte in Bezug auf Validierung, Transformation und Prozessablauf (Dispatching) möglich. Durch die Virtualisierung der Einzelkomponenten mit Docker kann der Anwender leicht neue Teststrecken erstellen bzw. bestehende Strecken kopieren und ändern.
- Kundenvorteile
- Eigenständiges Erstellen und Optimierung von Streaming-Strecken
- Einfache Bereitstellung der Streaming-Komponenten durch Container
- Skalierbarkeit durch Big Data-Architektur
- Optimale Nutzung der Cluster-Ressourcen
- Transparente Auswertung der Effizienz des Streamings