
Cloud Analytics Platform
DER GEWINN FÜR DEN KUNDEN
Durch die Implementierung wird ein effizienter Preprocessing-Prozess gewährleistet. Datenmengen im Terabyte-Bereich können alle erforderlichen Verarbeitungsschritte wie Data Cleaning und Data Transformation durch den Einsatz von Cloud- und Big-Data Technologien zügig und kosteneffizient durchlaufen.
KUNDE
Automobilbranche
AWS, Glue, Pyspark, Infrastructure as Code
Die Ausgangssituation
Unser Kunde stand vor der Herausforderung, große Datenmengen effizient in einem ETL-Prozess (Extract, Transform, Load) zu verarbeiten und strukturiert abzulegen. Die bestehende Implementierung war jedoch langsam, benötigte erhebliche Rechen-Ressourcen und verursachte dadurch hohe Cloud-Kosten. Zudem fehlten feste Vorgaben für die Datenablage, was zu einer unübersichtlichen und chaotischen Struktur im S3-Speicher führte.
Unser Ansatz
Das Ziel war es, den ETL-Prozess grundlegend zu optimieren, indem wir die Verarbeitungszeit drastisch reduzieren, die Datenstruktur klar definieren und die Cloud-Kosten signifikant senken. Dafür setzten wir auf eine Kombination aus Pyspark und Cloud-Services, führten automatisierte Tests zur Datenintegrität ein und implementierten eine Infrastructure-as-Code-Architektur für maximale Flexibilität.
Die Umsetzung
Durch die Nutzung von Pyspark und optimierten Cloud-Services gelang es uns, die Verarbeitungszeit von mehreren Tagen auf unter zehn Minuten zu senken. Da sich die Kosten für die Datenverarbeitung auf der Ausführungszeit der Rechenressourcen basieren, konnten wir eine Kostenreduktion von 720 % erzielen.
Zur Sicherstellung der Datenqualität haben wir einen umfassenden Testprozess implementiert, der inklusive End-to-End-Tests die Korrektheit und Integrität der Daten überprüft. Dadurch wird sichergestellt, dass die verarbeiteten Daten fehlerfrei für Analysen und Machine-Learning-Anwendungen genutzt werden können.
Die Ablage der Daten erfolgt nun in einer vordefinierten, strukturierten Ordnerstruktur. Anstatt manuell definierter Datenpfade sorgt ein dynamisches System für eine automatisierte und einheitliche Ablage. Zudem werden Entwicklungs- und Produktivdaten strikt getrennt, sodass veraltete Datensätze leichter identifiziert und gelöscht werden können.
Für maximale Flexibilität haben wir eine Infrastructure-as-Code-Architektur implementiert. Dadurch kann die gesamte Cloud-Umgebung bei Bedarf automatisiert erstellt, ausgeführt und wieder gelöscht werden. Ein Wechsel in eine neue Umgebung oder die Wiederverwendung bestehender Strukturen ist damit problemlos möglich.
Der Mehrwert
Dank der optimierten ETL-Pipeline profitiert der Kunde von einer massiven Leistungssteigerung, erheblich reduzierten Cloud-Kosten und einer strukturierten, einheitlichen Datenablage. Die Daten sind nun jederzeit aktuell, schnell abrufbar und optimal für Analysen oder Machine-Learning-Prozesse aufbereitet. Die Automatisierung minimiert manuelle Fehlerquellen, erhöht die Betriebssicherheit und ermöglicht eine skalierbare und kosteneffiziente Cloud-Infrastruktur, die sich flexibel an zukünftige Anforderungen anpassen lässt.