NoSQL-Datenbanken im Vergleich zu SQL-Datenbanken [Teil I/II]

Big Data ist ein aktueller Wirtschaftstrend, der zum Kerngeschäft vieler neuer Start-Ups ist und zu gleich den Konzernen der traditionellen Industrie Kopfzerbrechen bereitet, aber auch als Hoffnung auf neue Geschäftsmodelle gesehen wird. Dabei wird Big Data in der Regel nicht von der IT-Abteilung, sondern von Fachbereichen getrieben. Das macht diesen Trend insbesondere für Wirtschaftsinformatiker sehr bedeutend, denn diese können mit technischen Wissen den Fachabteilungen bei der Umsetzung von Big Data Projekten nicht nur behilflich sein, sondern dank des Schnittstellenwissens direkt die Projektleitung übernehmen, wenn Sie über technisches Wissen um die Verarbeitung von sehr großen Datenmengen verfügen.

Eine Begleiterscheinung von Big Data ist der Trend zu NoSQL-Datenbanken, denn diese sollen die Speicherung und Auswertung von großen und unstrukturierten Datenmengen erst möglich machen. Herkömmliche Datenbanken, das sind solche, die auf relationalen Modellen basieren, sollen kaum für die Verarbeitung von sehr großen, polystrukturierten Datenmengen verwendbar sein, doch woran liegt das eigentlich?
Relationale Datenbanken // SQL

Relationale Datenbanken sind Sammlungen von zweidimensionalen Tabellen mit einer festen (jedoch leicht erweiterbaren) Struktur, in denen jeweils jede Zeile einen Datensatz darstellt. Jeder Datensatz ist durch einen festen Index eindeutig identifizierbar und kann über diesen referenziert werden.
Jeder Datensatz hat eine feste Anzahl von Spalten, die jeweils einen festen Datentyp aufweist. Beide werden in der Tabelle vor dem Befüllen vordefiniert. Während das Hinzufügen von weiteren Spalten grundsätzlich möglich ist, ist das ändern von Spalteninhalten, die einen anderen Datentypen bedeuten würden, nicht immer unproblematisch.

Die Verknüpfung der Tabellen erfolgt über speziell hierfür definierte Tabellenfelder, sogenannte Keys (Schlüssel). Zwischen den Keys, deren Konsistenz von einem Datenbank-Management-System (DBMS) gewährleistet wird, werden konsistente und eindeutige Relationen zwischen Datensätzen hergestellt, so dass über mehrere Tabellen verteilte Daten über eine SQL-Abfrage (Structured Query Language) abgefragt werden können.
Vor- und Nachteile relationaler Datenbanken

Das DBMS der relationalen Datenbank sichert die referenzielle Integrität, also die Sicherheit, dass über zwei oder mehrere Tabellen referenzierte Datensätze nicht durch partielles Hinzufügen, Ändern oder Löschen zerstört werden bzw. unbrauchbare Datenfragmente in der Datenbank verbleiben. Die Verlässlichkeit der im relationalen Modell gespeicherten Daten ist recht hoch, sofern ein ausreichender Grad an Normalisierung (Vermeidung von Redundanzen) erreicht wurde. Dieser von vielen Unternehmen geschätzte Vorteil wird jedoch genau dann zum Nachteil, wenn die Datenmengen zu groß werden und komplizierte Analyse-Abfragen durchgeführt werden sollen, für die entsprechend viele Tabellen (über sogenannte „JOIN“-Abfragen) verbunden werden müssen.

Von Nachteil beim Einsatz von relationalen Datenbanken ist der hohe Aufwand der Vorverarbeitung der Daten, um diese in das relationale Modell einspeisen zu können. Bei der dafür notwendigen Strukturierung der Daten gehen die Vielgestalt der ursprünglichen Rohdaten und somit auch Kontext-Informationen verloren.
Relationale Datenbanken können nur strukturierte Daten sinnvoll auswerten. Zwar können auch viele Seiten Text, Bilder oder gar Videos in einzelne Datenzellen untergebracht werden, für den Einsatz in Masse ist jedoch mit einem großen Leistungseinbruch zu rechnen und die Analyse von Daten innerhalb einzelner Zellen ist sehr eingeschränkt.
Dabei wird Speicherung und Analyse von großen Datenmengen aus unterschiedlichsten Quellen für alle Fachbereiche im Unternehmen von Jahr zu Jahr wichtiger. Big Data Analytics gilt in den meisten Branchen bereits als Must-Have-Kompetenz, um nicht bereits kurzfristig den Anschluss an den Wettbewerb zu verlieren. Die neue Herausforderung ist dabei aber nicht nur die bloße Menge an Daten, sondern die vielen unterschiedlichen Datenformate.

Angesichts der von Sekunde zu Sekunde anwachsenden Datenmengen in jedem Bereich der Wertschöpfung bilden zielgerichtete Datenanalysen einen entscheidenden Erfolgsfaktor für die gesamte Unternehmensleistung. Nur Unternehmen, die bei der intelligenten Datenanalyse die Nase vorn haben und auch neue Wege einschlagen, werden ihre Wettbewerbsfähigkeit langfristig sichern können.