60 % aller Datenbankbestände sind nicht belastbar, 25 % ungenau. Zu diesem bestürzenden Ergebnis kam eine Umfrage von Sirius Decisions bereits 2013. Wie kommt es, dass Big Data neue Einsichten verspricht, das aber nicht einlösen kann?
Dieses Phänomen trägt aufgrund seiner Verbreitung sogar einen eigenen Namen: Bad Data. Darunter versteht man wortwörtlich alle schlechten Daten innerhalb eines Bestandes. Sie können aus verschiedenen Gründen zustanden kommen und die Datensätze unterschiedlich stark beeinträchtigen:
In der Folge können diese Bad Data die Verarbeitung beeinträchtigen, bis hin zur völligen Unauswertbarkeit. In jedem Fall erhöhen sie den Verbrauch von Ressourcen und bringen steigende Unterhaltskosten mit sich. Gleichzeitig kann es insbesondere bei CRM-Daten dazu kommen, dass Produkte oder Nachrichten nicht zugestellt werden können, Kunden unzufrieden sind oder gar abwandern. Damit können Bad Data beispielsweise auch an erhöhten Newsletter-Abmeldungen Schuld tragen, etwa wenn Personen außerhalb der eigentlichen Zielgruppe automatisiert angesprochen werden.
Leider kann die Entstehung von Bad Data so gut wie nicht vermieden werden. Ein gutes Data Management kann jedoch dabei helfen, für Ordnung zu sorgen. Doch Vorsicht: Einer CrowdFlower-Studie zufolge verbringen Data Scientists 60 % ihrer Zeit mit der Bereinigung von Datenbeständen. Um diese Zeiten zu verringern, sollten Data Scientists und alle Beteiligten sich über die exakte Verarbeitung der Datensätze austauschen. Auf diese Weise kann Bad Data bereits vorab vermieden werden.