Process Mining – Datengetriebene Prozessanalyse

Effiziente Abläufe, Prozesstransparenz und Risikoerkennung sind der Schlüsselfaktor für eine erfolgreiche Organisation. Nicht ohne Grund beschäftigen größere Unternehmen eigene Abteilungen mit dem Auftrag zur Prozessoptimierung und der Revision. Die komplette Prozesskette – z. B. im Einkauf von der Bedarfsentstehung bis zur Zahlung – ist auf operativer und strategischer Arbeitsebene regelmäßig zu hinterfragen. Infolge der erhöhten Unterstützung der Prozessverarbeitung durch ERP– und andere IT-Systeme sowie der steigenden Abhängigkeiten inner- und außerbetrieblicher Prozesse, nimmt der Aufwand für das Monitoring von Geschäftsprozessen rasant zu.

→ WEITERLESEN

Maschinendaten – Treiber für die Smart Factory

Warum sich Wissen über Datenverarbeitung für Wirtschaftsingenieure lohnt.

Big Data Analytics ist gehört zu den Kernkompetenzen für die Industrie 4.0. Vor allem Absolventen der Physik, Informatik und Mathematik profitieren von den vielen neuen Berufen, beispielsweise mit den Bezeichnungen Data Engineer oder Data Scientist. Dabei können auch Wirtschaftsingenieure von diesen neuen Job-Chancen profitieren, wenn sie sich mit den Möglichkeiten der Datenhaltung und -verarbeitung vertraut machen und auch die Grundlagen der Statistik wiederauffrischen, denn im Produktionsumfeld lassen sich neue Wertpotenziale erschließen, die mit den traditionellen Methoden der Produktionsoptimierung unentdeckt blieben.

→ WEITERLESEN

NoSQL-Datenbanken im Vergleich zu SQL-Datenbanken [Teil I/II]

Big Data ist ein aktueller Wirtschaftstrend, der zum Kerngeschäft vieler neuer Start-Ups ist und zu gleich den Konzernen der traditionellen Industrie Kopfzerbrechen bereitet, aber auch als Hoffnung auf neue Geschäftsmodelle gesehen wird. Dabei wird Big Data in der Regel nicht von der IT-Abteilung, sondern von Fachbereichen getrieben. Das macht diesen Trend insbesondere für Wirtschaftsinformatiker sehr bedeutend, denn diese können mit technischen Wissen den Fachabteilungen bei der Umsetzung von Big Data Projekten nicht nur behilflich sein, sondern dank des Schnittstellenwissens direkt die Projektleitung übernehmen, wenn Sie über technisches Wissen um die Verarbeitung von sehr großen Datenmengen verfügen.

→ WEITERLESEN

Data Analytics mit R – Buchempfehlung

Big Data Analytics ist der Trend für das Jahr 2015. Im Unterschied zum traditionellen Business Intelligence, bezieht Big Data Analytics alle unternehmensinternen Daten und externe Datenquellen ein. Externe Datenquellen können beispielsweise Social Media Plattformen, Börsen und Handelsplattformen sowie Behörden (Open Data) sein. Auch der aktuelle Trend zur Industrie 4.0 (Smart Factory) bedient sich dieser Analyseverfahren.

Mit diesen Trends erlebt auch die Programmiersprache für statistische Datenanalyse R einen enormen Aufschwung. Mit R lassen sich einfache statistische Datenanalysen durchführen oder automatisierte Analyseverfahren entwickeln, aber auch Predictive Analytics wird häufig mit R als Analysekern realisiert. R ist zudem grundsätzlich kostenlos und Open Source. Übrigens zählen R-Programmierer zu den Entwicklern mit den höchsten Stundensätzen bzw. Gehältern und IT-Experten.

Nachfolgend zwei ausgewählte Buchempfehlungen für den Einstieg in die Programmierung und Analyse mit R und zur Erweiterung von bestehenden R-Kenntnissen.



Programmieren Mit R (Statistik Und Ihre Anwendungen) (German Edition): 3. Auflage

Das Buch Programmieren mit R von Uwe Liges mit einer schrittweisen Einführung in R von Anfang an. Mit der Nutzung von R als Taschenrechner wird leicht verständlich in R eingewiesen. Wer schon weiter ist oder die 225 Seiten des Buches durchgearbeitet hat,  versteht es bereits, objektorientierte Programme in R zu entwickeln, statistische Modelle zu entwickeln, lineare Optimierungen durchzuführen, Effizienzanalysen (z. B. Laufzeitanalysen) zu betreiben und sogar eigene Grafikfunktionen zu definieren. Das Buch umfasst die komplette Mächtigkeit in Bezug auf die Mathematik. Der Autor schafft es dabei, anfangs sehr didaktisch vorzugehen, ab ca. dem ersten Drittel jedoch die Themen klar voneinander zu trennen, so dass das Buch auch als Nachschlagewerk taugt. Eine ganz klare Empfehlung für Einsteiger und auch Fortgeschrittene!

 



Datendesign mit R: 100 Visualisierungsbeispiele

Das Buch Datendesign mit R vom Autor Thomas Rahlf geht die Sache ganz anders an, als das oben genannte allgemeine Einführungs- und Nachschlagewerk für R. Der Autor stellt auf den ersten Seiten die Gestaltungsmöglichkeiten von R für Grafiken und Diagramme vor, wobei die Gestaltungsvorschläge prinzipiell unabhängig von dieser Programmiersprache sind und allgemeine Gestaltungstipps für Analyse-Reporting sind. Das Buch beinhaltet auf wenigen Seiten zwar auch noch eine kleine Einführung in R, diese ist jedoch nur ein kleines Beiwerk. Der Kern des Buches, und der tatsächliche Kaufgrund, sind die 100 Visualisierungsbeispiele, die tatsächlich visuell überzeugen, verständlich aufbereitet und dabei auch noch schön anzusehen sind. Dem Leser werden Möglichkeiten der Datenvisualisierung aufgezeigt, stets mit einem Anwendungsfall und echten (downloadbaren) Daten im Hintergrund. Dies macht nicht nur Statistik verständlicher, sondern der Leser erhält einen Eindruck, welche Diagramme in welchem Kontext die ideale Wahl sind, beispielsweise Balkendiagramme, Säulendiagramme, Kuchendiagramme, Histogramme, Verteilungsdiagramme, Lorenzkurven, Liniendiagramme, Zeitreihen, Radialpolygone oder Heatmaps.

Wer die Visualisierungen aus dem Buch nachbauen möchte, muss nicht unbedingt den Quellcode aus dem Buch abtippen, sondern kann diesen auch aus dem (als Download-Code) beigelegten eBook kopieren.

Big Data Analytics mit Hadoop – Buchempfehlung

Big Data ist eines der Buzzwords dieser Jahre und steht für das Potenzial der heranwachsenden Datenmengen für Wirtschaft und Wissenschaft. Das Potenzial ergibt sich aus dem Erfassen und Sammeln dieser Datenmengen aus den unterschiedlichsten Quellen. Die Nutzung des Potenzials erfolgt jedoch erst mit der Datenanalyse, daher wird oftmals zwar von Big Data geredet, jedoch Big Data Analytics gemeint.

Das in der Praxis am häufigsten vorkommende Datenbankmodell ist die relationale Datenbank, die Daten in untereinander verknüpfte Tabellenstrukturen speichert. Relationale Datenbanken sind zwar nicht direkt auf eine bestimmte Größe beschränkt, so begrenzt ausschließlich das Betriebssystem die Größe einer MySQL-Datenbank, dennoch tauchen bei großen Abfragen mit SQL-Queries oftmals schwer nachvollziehbare Fehler auf. Eine fehlgeschlagene SQL-Query lässt sich nur schwer debuggen, wenn sie nach Stunden abbricht.

Abhilfe verspricht Apache Hadoop mit einem verteilten Dateisystem (HDFS) und dem NoSQL-Ansatz und MapReduce-Algorithmus, der auch die Analyse von unstrukturierten Daten ermöglicht. Durch HDFS werden mit Commodity Hardware Datensammlungen und Analysen im Petabyte-Bereich möglich. Für die Auswertung der Datenmengen werden dadurch auch keine backup-kritischen Großrechner mehr benötigt, denn MapReduce-Jobs können auf verschiedener, räumlich getrennter Hardware zeitlich parallel erfolgen, erst die Ergebnisse werden auf einem dafür vorbestimmten Rechner (Server) zusammengetragen und weiterverarbeitet. Dabei werden Daten über die verteilte Hardware redundant gehalten, was als Data Warehouse (unter bestimmten Voraussetzungen) Ausfallsicherheit bedeutet.

Hadoop ist ein freies Open Source Framework, dessen Entwicklung von der Apache Software Foundation vorangetrieben wurde. Es wird auch von den Unternehmen eingesetzt, die heute als Pioniere von Big Data gelten, beispielsweise Facebook, Yahoo!, Twitter, Amazon und Google. Vor allem Google, Facebook und Yahoo! steuerten große Teile zu Hadoop bei.

Hadoop: Zuverlässige, verteilte und skalierbare Big-Data-Anwendungen

Das Buch Hadoop – Zuverlässige, verteilte und skalierbare Big-Data-Anwendungen vom Autor Ramon Wartala bietet einen breiten und tiefen Einblick in Hadoop und dessen modulare Nebensysteme:

  • Datenfluss-Sprachen:
    • Hive
    • Pig
    • CludBase
  • Spaltenorientierte Datenbanken
    • HBase
    • Hypertable
  • Daten-Serialisierung
    • Avro
    • Thrift
    • Google Protocol Buffer
    • Sqoop
  • Workflow-Systeme
    • Azkaban
    • Oozie
    • Cascading
    • Hue
  • ZooKeeper
  • Mahout
  • Whirr

Das Buch führt ausführlich durch die Installation von Hadoop auf einem Linux-System, leitet die ersten Schritte im Umgang mit dem verteilten Dateisystem von Hadoop (HDFS) sowie zur Implementierung von MapReduce-Algorithmen an. Auch in die empfohlene Entwicklungsumgebung Eclipse (mit Plugin) wird hinreichend eingewiesen. Zum Ende gibt der Autor noch Tipps rund um das Management und die Überwachung der MapReduce-Jobs und des Hadoop-Ökosystems. Ferner werden vier Beispiele des Hadoop-Einsatzes in der Praxis vorgestellt. Wer einen Einstieg in die Praxis von Hadoop finden möchte, kann sich Hadoop als Standalone-Anwendung installieren und die Datenverteilung simulieren, oder sich Linux-Server bei Providern anmieten.

Hadoop besteht im Wesentlichen aus Java Programmcode (von Oracle, vormals Sun Microsystems), daher ist zumindest ein Grundwissen in Java notwendig, um tiefer in Hadoop eintauchen zu können und auch um die Quellcode-Beispiele im Buch verstehen zu können. Außerdem sind Linux-Kenntnisse (insbesondere Ubuntu/Debian) vorteilhaft. Wer kein Freund der Programmiersprache Java ist, kann durch das Hadoop Streaming auch MapReduce-Funktionen in C, Ruby, PHP oder Python realisieren; Hierfür bietet Hadoop eine Standardein/ausgabe-Schnittstelle an.


Hadoop: The Definitive Guide

Die Community rund um Hadoop ist nahezu vollständig englischsprachig, für einen tieferen Einblick in Hadoop ist daher englischsprachige Literatur zu empfehlen, beispielsweise das Buch Hadoop: The Definitive Guide. Für einen ersten Einstieg in das Hadoop-System ist das obige deutschsprachige Buch jedoch absolut empfehlenswert.