Wer im Web bei Zalando einkauft, hinterlässt Daten. Bei der Inspektion des Autos fallen Daten an, genauso wie bei jeder Fahrt mit dem Aufzug oder bei der Wareneingangskontrolle im Lager. In diesen Daten steckt Wissen, das für Ihren Erfolg wertvoll sein kann.
Es braucht kein Glück, sondern ein kluges Data-Mining, um auf eine Goldmine zu stoßen. Gold wert wäre das Entdecken eines Musters in den großen Datenmengen. Mit dieser Information können auch kleine und mittlere Unternehmen Kundinnen und Kunden besser bedienen, die Produktion effizienter gestalten, die Supply-Chain straffen, die Produktqualität verbessern und Ausfallzeiten reduzieren
Erkenntnisse des Data-Minings nutzt Amazon etwa für Produktvorschläge: Kunden, die dieses Buch gekauft haben, haben auch jenes gekauft. Diese Anregung steigert den Umsatz des Onlinehändlers um fast ein Drittel.
Der Aufzughersteller Otis analysiert Daten in Kombination mit Machine Learning zur vorausschauenden Wartung, auf Englisch Predictive Maintenance. Der neue Service verbessert die Laufzeit der Aufzüge und erhöht die Kundenzufriedenheit.
Data-Mining – Definition
Data-Mining ist eine computergestützte Methode, die Konzepte der Informatik, der Statistik und der Mathematik zur Datenanalyse nutzt. Die Data-Mining-Algorithmen entdecken logische Verbindungen als Muster oder als Trends in den Daten. Das ist wertvoll, um Zusammenhänge, Gesetzmäßigkeiten, Probleme und Schwachstellen zu identifizieren und daran zu arbeiten.
Während Statistiken dazu dienen, mit einer kleinen Stichprobe oder mit einer Fallzahl aufgestellte Hypothesen zu überprüfen, kann Data-Mining aus einer endlosen Menge von Daten neue Hypothesen automatisch generieren. Für die Datenanalyse kommen auch künstliche Intelligenz (KI) und maschinelles Lernen zum Einsatz.
Der Bergbaubegriff Mining bezieht sich also nicht darauf, Daten abzubauen, sondern in den Daten nach Wissen zu schürfen, Wissen zu generieren. Das geht weit über das hinaus, was etwa im Controlling die Auswertung der KPIs leistet.
Eine verwandte Methode ist das Text-Mining. Hier geht es um Informationen in umfangreichen Textdokumenten. Ausgangspunkt sind hierbei unstrukturierte Daten, während beim Data-Mining meist strukturierte Daten aus Datenbanken zum Einsatz kommen.
Untersuchte Texte sind zum Beispiel E-Mails, Gesprächsnotizen, Newsfeeds, Webformulare, Online-Diskussionen und offene Antworten aus Umfragen.
Solche Texte lassen sich durch Text-Mining erfassen und nutzbar machen. Zum Beispiel für Forschung und Entwicklung, fürs Marketing oder für den Kundendienst. In einigen Data-Mining-Produkten ist eine Text-Mining-Funktion enthalten.
Wissen in Datenbanken entdecken
Computergestütztes Mining ist Teil eines komplexen Prozesses. Datenbank-Spezialisten haben ihn 1989 als Standard definiert und Knowledge Discovery in Databases genannt, kurz KDD. Auf Deutsch: Entdeckung von Wissen in Datenbanken.
Das Modell soll verhindern, dass sogenannte primitive Datensätze zur Quelle werden. Das sind Daten, in denen keine Zusammenhänge zu finden sind. Die Phasen des KDD sind ein nicht-trivialer Prozess, wie die Spezialisten betonen. Sie können immer wieder durchlaufen werden, um die Qualität der Analyse zu steigern.
Das Ergebnis des KDD-Prozesses sind valide, neue, potenziell nützliche und klar nachvollziehbare Muster, die sich aus den Daten ableiten lassen.
Ohne Big Data kein Data-Mining
Wer Data-Mining nutzen will, braucht Big Data, also eine große, relevante Menge an Datensätzen. Eine vereinfachte Definition von Big Data lautet: eine Datenmenge, die nicht mehr in eine Excel-Tabelle passt. Excel kommt nach 1.048.576 Zeilen und 16.384 Spalten an seine Grenzen.
Heute fallen Tag für Tag an so vielen Stellen Daten an, dass Excel – je nach Unternehmensgröße – mitunter schon nach wenigen Minuten überfordert wäre.
Data-Mining setzt zwar keine spezifische Datenmenge voraus, sondern vor allem relevante. Aber viele Bits und Bytes dürfen es schon sein. Deshalb ist es nicht verkehrt zu sagen, dass Big Data das Material für Data-Mining ist.
Die fachliche Definition von Big Data lautet: Das systematische Erheben und Speichern von großen, komplexen und sich schnell ändernden Datenmengen.
Diese sechs V kennzeichnen Big Data:
- Velocity – das Tempo der Sammlung, Verarbeitung und Auswertung
- Volume – die Menge an Daten
- Variety – die Vielfalt an komplexen Datensätzen
- Veracity – Wahrhaftigkeit und Glaubwürdigkeit der Daten
- Value – der Wert der Daten für das Geschäft
- Validity – die Sicherstellung der Datenqualität
Für die Speicherung und Verarbeitung der Datenmenge reicht ein einfacher Daten-Server kaum noch aus. Um Big Data schnell zu verarbeiten und sogar Echtzeitanalysen zu erhalten, lohnt sich die Zusammenarbeit mit einem Data Warehouse.
CRM – eine gute Quelle für Data-Mining
Wenn Sie Ihre Kundenbeziehungen umfangreich und gepflegt in einem Customer-Relationship-Management-System (CRM) dokumentieren, haben Sie beste Voraussetzungen für den Einsatz von Data-Mining-Verfahren.
Sie können in den Datenmengen nach Mustern suchen, die bei der Neukundengewinnung helfen. Oder Kunden animieren, die schon zu lange nicht mehr aktiv waren. Sogar für verloren gegangene Kunden können Sie in den Daten Ideen finden, wie Sie sie zurückgewinnen.
Data-Mining hilft Ihnen überdies, bessere strategische Entscheidungen zu treffen. Das neue Wissen beeinflusst Kampagnen und Kundenprogramme sowie Produktionsprozesse und Sicherheitskonzepte. Und das nicht nur einmal, sondern wiederholt. Wenn die Daten in Echtzeit ausgewertet werden, reagieren Sie deutlich schneller auf Warnzeichen oder Erfolge.
Indirekt oder direkt steigert das neue Wissen aus den Daten den Umsatz und damit den Gewinn. Es trägt zur Wertschöpfung bei. Mit den Einsichten lassen sich neue Produkte und Services, sogar neue Geschäftsmodelle entwickeln.
Deshalb ist Data-Mining-Software auch für kleine und mittlere Unternehmen sehr nützlich und wichtig – sie können damit sogar große Unternehmen und Konzerne überholen.
Erst prüfen, dann analysieren
Bevor Sie mit dem Data-Mining beginnen können, müssen Sie das Datenmaterial sichten und prüfen. Oft stammen die Daten aus den verschiedensten Quellen, etwa aus Datenbanken, von Sensoren oder aus Tracking-Aufzeichnungen.
Die Ausgangsdaten werden bereits in dieser Phase zu Datensätzen zusammengefasst, sodass sie für das Data-Mining besser geeignet sind. Es gilt vor allem, gesammelte Daten von Fehlerquellen zu bereinigen.
Das können fehlende Werte oder falsche Angaben sein. Solche Daten werden noisy genannt, auf Deutsch verrauscht. Auch Daten, die nicht konsistent sind, schaden der Auswertung. Sie enthalten zum Beispiel widersprüchliche Werte, etwa ein Alter, das nicht zum Geburtsjahr passt.
Diese Vorbereitung der Daten braucht mehr Zeit als das Data-Mining selbst. Oft wird eine Relation von 80 zu 20 genannt: 80 Prozent der Zeit gehen in die Vorbereitung, 20 Prozent in die Analyse. Für die Vorbereitung der Daten ist auch die Frage entscheidend, die im Data-Mining untersucht werden soll.
Data-Mining-Methoden
- Ausreißer-Erkennung: Welche Objekte folgen nicht den Regeln der Abhängigkeit untereinander und warum?
- Clusteranalyse: Welche Ähnlichkeiten treten verstärkt auf und lassen sich unter diesen Aspekten zu Gruppen zusammenfassen?
- Klassifikation: Zu welchen definierten Klassen gehören diese Daten, denen sie bisher nicht zugeordnet waren?
- Assoziationsanalyse: Welche voneinander unabhängigen Items korrelieren, treten vermehrt gemeinsam auf?
- Regressionsanalyse: Welche Beziehung besteht zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen?
- Predictive Analytics: Welche Vorhersage lässt sich anhand einer Variablen für die Zukunft treffen?
Die Assoziationsanalyse etwa ist Grundlage für die Kaufempfehlungen bei Onlinehändlern. Die Klassifikation nutzen Banken zur Bonitätsprüfung. Clustering ist das Analyseverfahren, um Gruppen für gezielte Werbekampagnen zu definieren.
Data-Mining-Software im Haus oder in der Cloud?
Es gibt verschiedene Werkzeuge, die alle ihre Vor- und Nachteile haben. Deshalb hat es sich in der Praxis bewährt, mehrere Tools für verschiedene Aufgaben zu nutzen. Cloudbasierte Angebote oder Web Services sind kostengünstig und einfach skalierbar für weitere Nutzer und Analysen. Das macht den Einstieg schnell und einfach.
- SAS: Seit 1976 der führende Anbieter. Die Data-Mining-Software wird von vielen großen Kunden genutzt. Sie ist nicht preiswert, aber skalierbar. Die grafische Oberfläche macht die Nutzung sehr leicht.
- KNIME: Ein Team der Uni Konstanz entwickelt seit 2004 diese Open Source Software. Inzwischen unterstützt diesen Prozess eine große weltweite Entwickler-Community. Es gibt auch eine kommerzielle Version.
- Google Analytics: Das kostenlose Web-Tool ist einfach anzuwenden zur Auswertung der Webperformance, von Social-Media-Kampagnen und der Kundenaktivität online.
- Periscope Data: Das kalifornische Start-up hat seinen cloudbasierten Service erfolgreich im Markt etabliert. Inzwischen wurde das Unternehmen von Sisense gekauft zur Ergänzung seines Portfolios
- IBM Cognos Analytics: Nicht so bekannt wie IBM Watson, aber genauso schlau. Das Tool bietet Self-Service, es ist skalierbar und lässt sich in der Cloud nutzen oder auf dem eigenen System installieren.
Jetzt kann Data-Mining starten
Wer überzeugt ist, dass Data-Mining hilft, Prozesse und Produkte zu digitalisieren, fängt zunächst damit an, alle verfügbaren Datenquellen zu sichten. Dann folgt die Prüfung der Datenqualität: Sind diese lückenlos, verständlich und richtig?
Wer möchte, bezieht externe Datenquellen in die Analyse ein. Einige, etwa Wetter- und Verkehrsdaten, sind öffentlich. Andere lassen sich eventuell lizenzieren. Beginnen Sie die Arbeit nicht allein, sondern suchen Sie sich Mitstreiterinnen und Mitstreiter.
Data-Mining: ein Tool für alle
Daten zu verstehen und mit ihnen zu arbeiten, wird in Zukunft eine wichtige Qualifikation aller Mitarbeiterinnen und Mitarbeiter sein. Niemand muss deshalb programmieren können, Datenwissenschaftlerin oder Datenwissenschaftler werden und selbst einen Algorithmus entwickeln.
Die wichtigste Eigenschaft, die Sie als Userin oder als User brauchen, ist Neugier. Ihr Forschergeist stellt die Fragen, die Data-Mining-Methoden beantworten sollen.
Alle Tools bieten heute zudem eine starke Visualisierung der Ergebnisse an. Auf dem Dashboard sehen alle Beschäftigten die Auswertung der für sie relevanten Fragen – persönlich konfiguriert und definiert.
Das Gespräch über die verborgenen Zusammenhänge und wie diese sich nutzbar machen lassen, gehört schon bald zum Alltag im Team. Willkommen im data-driven Business!
Kleine und mittlere Unternehmen optimieren mit #Data-Mining sehr schnell ihr Geschäft. Warum? Das erklären jetzt die #jobwizards https://job-wizards.com/de/wissen-ist-macht-mit-data-mining-wissen-sie-mehr/