erfolgsgeschichte1

Erfolgsgeschichte
Cloud Analytics Platform

 

 

 

DER GEWINN FÜR DEN KUNDEN

 

Unsere Implementierung ermöglicht dem Kunden einen effizienten Preprocessing-Prozess. Datenmengen im Terabyte-Bereich können alle erforderlichen Verarbeitungsschritte wie Data Cleaning und Data Transformation durch den Einsatz von Cloud- und Big-Data Technologien zügig und kosteneffizient durchlaufen.

 

KUNDE

 

Automobilbranche

PROJEKTDAUER
6 Monate
LEISTUNGEN
Beratung, Implementierung
TECHNOLOGIEN

AWS, Glue, Pyspark, Infrastructure as Code

 

 

Die Ausgangssituation

 

Große Datenmengen sollten in einem ETL-Prozess transformiert und strukturiert abgelegt werden. Die auf Kundenseite bereits vorhandene, ursprüngliche Implementierung war jedoch sehr langsam und erforderte umfassende Rechen-Ressourcen. Dementsprechend waren auch die Cloud-Kosten verhältnismäßig hoch. Zudem waren die Datenpfade für die Ablage der Daten nicht fest vorgegeben, dementsprechend ergab sich ein Chaos auf dem S3 Speicher.

 

 

Das Ergebnis


Der neue Preprocessing Prozess ist schnell, sicher, kostenoptimiert und strukturiert. Dadurch stehen dem Kunden immer aktuelle Datensätze für die Datenanalyse und/ oder Machine Learning Prozesse zur Verfügung.

 

Schnell

Durch eine Kombination von Pyspark und Cloud-Services war es möglich, die Verarbeitungszeit der Daten von mehreren Tagen auf unter zehn Minuten zu reduzieren. Entsprechend sind die Kosten für die Verarbeitung der Daten, welche auf der Ausführungszeit der Rechenressourcen beruhen, um circa 720% gesunken!

 

Abgesichert

Ausführliche Tests inklusive End-to-end Tests prüfen, ob die verarbeiteten Daten auch korrekt verarbeitet wurden und stellen die Integrität der Daten sicher.

 

Strukturierte Ablage

Die Daten werden strukturiert in vordefinierten Orderstrukturen abgelegt: Datenpfade werden nicht mehr ‚per Hand‘ definiert, sondern durch dynamische Pfade automatisiert. Entwicklungs-Datensätze werden von den Produktiv-Daten getrennt, sodass veraltete Versionen einfach identifiziert und gelöscht werden können.

 

On Demand

Die gesamte Cloud-Architektur folgt einem Infrastructure-As-Code Design, sodass die benötigten Strukturen bei Bedarf erstellt, ausgeführt und wieder gelöscht werden. Ein Umzug in eine neue Umgebung, bzw. ein Wiederverwenden der bestehenden Strukturen, wird so eine einfache Aufgabe.