Der Begriff "Big Data" stammt aus dem Englischen und bedeutet wörtlich übersetzt "große Datenmengen". Der Begriff wird seit den 1990er Jahren verwendet. Big Data umfasst üblicherweise Datenmengen in Größen, die über die Fähigkeit gängiger Software-Tools zum Erfassen, Verwalten, Verwalten und Verarbeiten von Daten innerhalb einer tolerierbaren Zeit hinausgehen. Was konkret als "Big Data" gilt, hängt vom Anwendungsfall und den eingesetzten Tools ab. Typisch sind Datenmengen im Bereich von mindestens mehreren Gigabyte – bezogen auf Textdaten.
In einer Definition aus dem Jahr 2016 heißt es: "Big Data repräsentiert die Informationswerte, die durch ein so hohes Volumen, hohe Geschwindigkeit und Vielfalt gekennzeichnet sind, dass spezifische Technologie und analytische Methoden für ihre Umwandlung in Werte erforderlich sind." Es gibt fünf Konzepte, die mit Big Data in Verbindung gebracht werden: zum einen die traditionellen Konzepte Volumen, Vielfalt und Geschwindigkeit. Neu im Zusammenhang mit Big Data hinzugekommen sind die Konzepte Wahrhaftigkeit und Wert.
Die technologische Kapazität zum Speichern von Informationen hat sich seit den 1980er Jahren etwa alle 40 Monate verdoppelt; seit 2012 werden jeden Tag ca. 2,5 Exabyte Daten generiert.
In letzter Zeit bezieht sich der Begriff "Big Data" verstärkt auf die Verwendung von Predictive Analytics, Analyse des Benutzerverhaltens oder bestimmte andere fortschrittliche Datenanalyseverfahren, die Daten aus Daten extrahieren und selten auf eine bestimmte Datensatzgröße. Die Analyse von Datensätzen kann neue Korrelationen zu bestimmten wirtschaftlichen Trends, zur Prävention von Krankheiten, zur Bekämpfung von Kriminalität und weiteren ähnlichen Anwendungsfällen finden. Relationale Datenbank-Management-Systeme und Software-Pakete zur Visualisierung von Daten haben oft Schwierigkeiten beim Umgang mit Big Data. Die Verarbeitung von Big Data erfordert teilweise massiv parallele Software, die auf Dutzenden, Hunderten oder sogar Tausenden von Servern ausgeführt wird. Für einige Unternehmen kann der erstmalige Einsatz von Hunderten von Gigabytes an Daten daher dazu führen, dass die eigenen Datenverwaltungsoptionen neu konzipiert werden müssen.