Bad Big Data: Wenn Daten schlecht werden

60 % aller Datenbankbestände sind nicht belastbar, 25 % ungenau. Zu diesem bestürzenden Ergebnis kam eine Umfrage von Sirius Decisions bereits 2013. Wie kommt es, dass Big Data neue Einsichten verspricht, das aber nicht einlösen kann?

Nahezu alle Datenbestände weisen schlechte Daten auf

Dieses Phänomen trägt aufgrund seiner Verbreitung sogar einen eigenen Namen: Bad Data. Darunter versteht man wortwörtlich alle schlechten Daten innerhalb eines Bestandes. Sie können aus verschiedenen Gründen zustanden kommen und die Datensätze unterschiedlich stark beeinträchtigen:

Fehlende Daten durch leere Formularfelder,
Falsche Daten entweder weil sie veraltet sind oder bereits falsch eingegeben wurden,
Ungeeignete Daten, wenn sie in das falsche Feld eingefügt wurden,
Nonkonforme Daten, die aus dem Eingaberaster fallen,
Schlechte Daten durch Schreibfehler oder Namensvariationen,
Doppelte Daten.

Bad Data wirkt sich spürbar aufs Tagesgeschäft aus

In der Folge können diese Bad Data die Verarbeitung beeinträchtigen, bis hin zur völligen Unauswertbarkeit. In jedem Fall erhöhen sie den Verbrauch von Ressourcen und bringen steigende Unterhaltskosten mit sich. Gleichzeitig kann es insbesondere bei CRM-Daten dazu kommen, dass Produkte oder Nachrichten nicht zugestellt werden können, Kunden unzufrieden sind oder gar abwandern. Damit können Bad Data beispielsweise auch an erhöhten Newsletter-Abmeldungen Schuld tragen, etwa wenn Personen außerhalb der eigentlichen Zielgruppe automatisiert angesprochen werden.

Leider kann die Entstehung von Bad Data so gut wie nicht vermieden werden. Ein gutes Data Management kann jedoch dabei helfen, für Ordnung zu sorgen. Doch Vorsicht: Einer CrowdFlower-Studie zufolge verbringen Data Scientists 60 % ihrer Zeit mit der Bereinigung von Datenbeständen. Um diese Zeiten zu verringern, sollten Data Scientists und alle Beteiligten sich über die exakte Verarbeitung der Datensätze austauschen. Auf diese Weise kann Bad Data bereits vorab vermieden werden.