Cloud Analytics Platform
DER GEWINN FÜR DEN KUNDEN
Unsere Implementierung ermöglicht dem Kunden einen effizienten Preprocessing-Prozess. Datenmengen im Terabyte-Bereich können alle erforderlichen Verarbeitungsschritte wie Data Cleaning und Data Transformation durch den Einsatz von Cloud- und Big-Data Technologien zügig und kosteneffizient durchlaufen.
KUNDE
Automobilbranche
AWS, Glue, Pyspark, Infrastructure as Code
Die Ausgangssituation
Große Datenmengen sollten in einem ETL-Prozess transformiert und strukturiert abgelegt werden. Die auf Kundenseite bereits vorhandene, ursprüngliche Implementierung war jedoch sehr langsam und erforderte umfassende Rechen-Ressourcen. Dementsprechend waren auch die Cloud-Kosten verhältnismäßig hoch. Zudem waren die Datenpfade für die Ablage der Daten nicht fest vorgegeben, dementsprechend ergab sich ein Chaos auf dem S3 Speicher.
Das Ergebnis
Der neue Preprocessing Prozess ist schnell, sicher, kostenoptimiert und strukturiert. Dadurch stehen dem Kunden immer aktuelle Datensätze für die Datenanalyse und/ oder Machine Learning Prozesse zur Verfügung.
Schnell
Durch eine Kombination von Pyspark und Cloud-Services war es möglich, die Verarbeitungszeit der Daten von mehreren Tagen auf unter zehn Minuten zu reduzieren. Entsprechend sind die Kosten für die Verarbeitung der Daten, welche auf der Ausführungszeit der Rechenressourcen beruhen, um circa 720% gesunken!
Abgesichert
Ausführliche Tests inklusive End-to-end Tests prüfen, ob die verarbeiteten Daten auch korrekt verarbeitet wurden und stellen die Integrität der Daten sicher.
Strukturierte Ablage
Die Daten werden strukturiert in vordefinierten Orderstrukturen abgelegt: Datenpfade werden nicht mehr ‚per Hand‘ definiert, sondern durch dynamische Pfade automatisiert. Entwicklungs-Datensätze werden von den Produktiv-Daten getrennt, sodass veraltete Versionen einfach identifiziert und gelöscht werden können.
On Demand
Die gesamte Cloud-Architektur folgt einem Infrastructure-As-Code Design, sodass die benötigten Strukturen bei Bedarf erstellt, ausgeführt und wieder gelöscht werden. Ein Umzug in eine neue Umgebung, bzw. ein Wiederverwenden der bestehenden Strukturen, wird so eine einfache Aufgabe.