Noch vor wenigen Jahren genügte es, Daten in einer Datenbank bzw. in einem Data Warehouse-System zu sammeln. Gut organisierte Daten wurden über genau definierte Querys abgefragt und in den gewünschten Auswertungen in vorab definierten Formaten bereit gestellt. Doch die aktuelle Situation erfordert neue Herangehensweisen, um aus einem Meer von Daten genau die Ergebnisse angezeigt zu bekommen, die als Grundlage für wichtige Unternehmensentscheidungen erforderlich sind.

Datenpools und Data Lake sind die Sammelbecken für Daten aus einer Vielzahl Datenquellen – wie optimal handeln?

In den vergangenen Jahren haben sich Datenquellen aufgetan, an die zu Zeiten von Data Warehouse Lösungen noch niemand dachte. Inzwischen werden Big Data in riesigen Datenpools zusammen geführt, die ganz ohne die bisher bekannten und organisierten Strukturen von Datenbanken gesammelt werden. Eine wesentliche Rolle spielen hier die voranschreitende Digitalisierung und IoT, Komponenten, die zu Beginn der Data Analytics Phase noch kaum von Bedeutung waren, heute aber eine wesentliche Rolle spielen. Um aus der schier unendlich scheinenden Fülle an aufkommenden Daten die Essenz zu filtern, die als Grundlage zur Lösung eines gegebenen Problems benötigt werden, bietet sich entweder das Thema „Data Lake“ oder Auswertungslayer an. Ob dabei hochspezialisierte Experten eingebunden oder die Daten demokratisiert und Powerusern zur Verfügung gestellt werden, die über Dashboards die gewünschten Ergebnisse generieren, ist eine Kostenfrage.

Die Arbeit mit Big Data erfordert ein hohes Maß an Zugriffsgeschwindigkeit und einen optimal organisierten Datenpool, der natürlich ein ebenso intensives Maß an Pflegeaufwand mit sich bringt. Der Lösungsansatz für dieses Problem ist eine eindeutige Definition, welchem Zweck ein bestimmter Datenpool dienen soll. Nur so ist der extrem schnelle Zugriff auf die vorhandenen Datenmengen gewährleistet. Für die verschiedenen Datenquellen, aus denen sich das Sammelbecken speist, müssen darüber hinaus die Beziehungen ersichtlich und erhalten bleiben. Nur so kann gewährleistet werden, dass optimale Ergebnisse für Managemententscheidungen bereitstellt werden können.

Kern der Problemlösung kann nur die Modernisierung des DWH im Unternehmen sein

Die bisherige Stragegie für Big Data war die Organisation von riesigen Datenmengen in einem Data Warehouse-System. Die in diesem System vorhandenen Dateninseln müssen zu einem Data Lake zusammengeführt werden und zwar auf einer Analyseplattform. Auf diese Weise wird das vorhandene DWH nicht nur modernisiert, sondern deutlich erweitert. Denn dieses Datensammelbecken dient gleichzeitig dazu, um umfangreiche Analysen mit den für das Handling von Big Data notwendigen Volume, Volocity und Variety in Hochgeschwindigkeit durchführen zu können. Somit bildet der Data Lake eine umfangreiche und wichtige Erweiterung des bisher im Unternehmen genutzten DWH. Die ursprünglichen Rohdaten bleiben dabei in ihrer Erscheinungsform komplett erhalten, was die Analyseinformationen, die für die Geschäftsführung sowohl operativ als auch technisch von Bedeutung sind, einschließt. Mittels IoT-Sensordaten kann der Data Scientist in der Analyse selbst die Gerätebezeichnung und sogar den Standort des Gerätes der Datenquelle einbeziehen.

Die Kosten für ständig wachsende Datenmengen nehmen sowohl auf der Hardware-Seite als auch im Personalbereich zu. Um dem entgegenzuwirken, bieten sich Technologien mit Cloud-Lösungen an. Über die Cloud sind sowohl Rechnerkapazitäten als auch Speicherplatz skalierbar und je nach spezifischem Bedarf zuschaltbar. Bezahlt wird lediglich, welche Kapazitäten tatsächlich in einem bestimmten Zeitraum genutzt wurden. Insbesondere wirkt sich das kostensparend aus, wenn große Hadoop Cluster eingesetzt werden müssen.

Um dem Data Scientist eine Plattform zu bieten, auf der er ungestört von anderen Nutzern die Software testen kann, steht ihm mit dem Sandbox System ein Tool zur Verfügung: Der Geschäftsbetrieb bleibt von seinen Arbeiten unberührt und er kann hier kostengünstig testen, wie die DWH-Lösung des Unternehmens mit gut aufbereiteten Stammdaten als Basis für die Analyse der im Hadoop-Cluster des Data Lake eingeflossenen Datenvolumens neue und für das Unternehmen gewinnbringende Erkenntnisse erzielt werden können.

Vom Data Warehouse zum Data Lake

Datenpools und Data Lake sind die Sammelbecken für Daten aus einer Vielzahl Datenquellen – wie optimal handeln?

Kern der Problemlösung kann nur die Modernisierung des DWH im Unternehmen sein