Articles

Data Mining Tutorial: Was ist / Prozess / Techniken & Beispiele

Was ist Data Mining?

Data Mining ist ein Prozess, bei dem potenziell nützliche Muster aus riesigen Datensätzen gefunden werden. Es ist eine multidisziplinäre Fähigkeit, die maschinelles Lernen, Statistiken und KI verwendet, um Informationen zu extrahieren, um die Wahrscheinlichkeit zukünftiger Ereignisse zu bewerten. Die aus dem Data Mining gewonnenen Erkenntnisse werden für Marketing, Betrugserkennung, wissenschaftliche Entdeckungen usw. verwendet.

Beim Data Mining geht es darum, verborgene, unerwartete und bisher unbekannte, aber gültige Beziehungen zwischen den Daten zu entdecken. Data Mining wird auch als Knowledge Discovery in Data (KDD), Wissensextraktion, Daten- / Musteranalyse, Informationsgewinnung usw. bezeichnet.

In diesem Data Mining Tutorial lernen Sie die Grundlagen des Data Mining wie-

  • Was ist Data Mining?
  • Arten von Daten
  • Data Mining Implementierungsprozess
  • Geschäftsverständnis:
  • Datenverständnis:
  • Datenaufbereitung:
  • Datentransformation:
  • Modellierung:
  • Data Mining-Techniken
  • Herausforderungen bei der Implementierung von Data Mine:
  • Data Mining-Beispiele:
  • Data Mining-Tools
  • Vorteile von Data Mining:
  • Nachteile des Data Mining
  • Data Mining-Anwendungen

Datentypen

Data Mining kann mit folgenden Datentypen durchgeführt werden

  • Relationale Datenbanken
  • Data Warehouses
  • Erweiterte Datenbank- und Informations-Repositorys
  • Objektorientierte und objektrelationale Datenbanken
  • Transaktionale und räumliche Datenbanken
  • Heterogene und Legacy-Datenbanken
  • Multimedia- und Streaming-Datenbank
  • Textdatenbanken
  • Text Mining und Web Mining

Data Mining-Implementierung Prozess

Data Mining-Implementierungsprozess
Data Mining-Implementierungsprozess

Lassen Sie uns den Data-Mining-Implementierungsprozess im Detail studieren

Geschäftsverständnis:

In dieser Phase werden Geschäfts- und Data-Mining-Ziele festgelegt.

  • Zunächst müssen Sie die Geschäfts- und Kundenziele verstehen. Sie müssen definieren, was Ihr Kunde will (was oft sogar er selbst nicht weiß)
  • Bestandsaufnahme des aktuellen Data-Mining-Szenarios. Berücksichtigen Sie Ressourcen, Annahmen, Einschränkungen und andere wichtige Faktoren in Ihrer Bewertung.
  • Definieren Sie anhand der Geschäftsziele und des aktuellen Szenarios Ihre Data Mining-Ziele.
  • Ein guter Data-Mining-Plan ist sehr detailliert und sollte entwickelt werden, um sowohl Geschäfts- als auch Data-Mining-Ziele zu erreichen.

Daten verstehen:

In dieser Phase wird die Richtigkeit der Daten überprüft, um zu überprüfen, ob sie für die Data-Mining-Ziele geeignet sind.

  • Zunächst werden Daten aus mehreren in der Organisation verfügbaren Datenquellen gesammelt.
  • Diese Datenquellen können mehrere Datenbanken, Flatfiler oder Datenwürfel umfassen. Es gibt Probleme wie Objektabgleich und Schemaintegration, die während des Datenintegrationsprozesses auftreten können. Es ist ein ziemlich komplexer und kniffliger Prozess, da Daten aus verschiedenen Quellen wahrscheinlich nicht leicht übereinstimmen. Beispielsweise enthält Tabelle A eine Entität mit dem Namen cust_no, während eine andere Tabelle B eine Entität mit dem Namen cust-id enthält.
  • Daher ist es ziemlich schwierig sicherzustellen, dass sich beide angegebenen Objekte auf denselben Wert beziehen oder nicht. Hier sollten Metadaten verwendet werden, um Fehler im Datenintegrationsprozess zu reduzieren.
  • Als nächstes wird nach Eigenschaften der erfassten Daten gesucht. Eine gute Möglichkeit, die Daten zu untersuchen, besteht darin, die Data Mining-Fragen (in der Geschäftsphase entschieden) mithilfe der Abfrage-, Berichts- und Visualisierungstools zu beantworten.
  • Basierend auf den Ergebnissen der Abfrage sollte die Datenqualität ermittelt werden. Fehlende Daten, falls welche erfasst werden sollten.

Datenvorbereitung:

In dieser Phase werden die Daten produktionsbereit gemacht.

Der Datenaufbereitungsprozess verbraucht etwa 90% der Zeit des Projekts.

Die Daten aus verschiedenen Quellen sollten ausgewählt, bereinigt, transformiert, formatiert, anonymisiert und (falls erforderlich) konstruiert werden.

Datenbereinigung ist ein Prozess zum „Bereinigen“ der Daten, indem verrauschte Daten geglättet und fehlende Werte ausgefüllt werden.

Für ein kundendemografisches Profil fehlen beispielsweise Altersdaten. Die Daten sind unvollständig und sollten ausgefüllt werden. In einigen Fällen kann es zu Datenausreißern kommen. Zum Beispiel hat das Alter einen Wert von 300. Die Daten könnten inkonsistent sein. Zum Beispiel ist der Name des Kunden in verschiedenen Tabellen unterschiedlich.

Datentransformationsvorgänge ändern die Daten, um sie für das Data Mining nützlich zu machen. Folgende Transformation kann angewendet werden

Datentransformation:

Datentransformationsvorgänge würden zum Erfolg des Mining-Prozesses beitragen.

Glätten: Es hilft, Rauschen aus den Daten zu entfernen.

Aggregation: Zusammenfassung oder Aggregationsoperationen werden auf die Daten angewendet. Das heißt, die wöchentlichen Verkaufsdaten werden aggregiert, um die monatliche und jährliche Summe zu berechnen.

Verallgemeinerung: In diesem Schritt werden Low-Level-Daten mit Hilfe von Konzepthierarchien durch übergeordnete Konzepte ersetzt. Zum Beispiel wird die Stadt durch die Grafschaft ersetzt.

Normalisierung: Normalisierung wird durchgeführt, wenn die Attributdaten hochskaliert oder herunterskaliert werden. Beispiel: Die Daten sollten nach der Normalisierung im Bereich von -2,0 bis 2,0 liegen.

Attributaufbau: diese Attribute werden erstellt und enthalten den angegebenen Satz von Attributen, die für das Data Mining hilfreich sind.

Das Ergebnis dieses Prozesses ist ein endgültiger Datensatz, der in der Modellierung verwendet werden kann.

Modellierung

In dieser Phase werden mathematische Modelle verwendet, um Datenmuster zu bestimmen.

  • Basierend auf den Geschäftszielen sollten geeignete Modellierungstechniken für den vorbereiteten Datensatz ausgewählt werden.
  • Erstellen Sie ein Szenario, um die Qualität und Gültigkeit des Modells zu überprüfen.
  • Führen Sie das Modell auf dem vorbereiteten Datensatz aus.
  • Die Ergebnisse sollten von allen Beteiligten bewertet werden, um sicherzustellen, dass das Modell die Data-Mining-Ziele erreichen kann.

Evaluation:

In dieser Phase werden die identifizierten Muster anhand der Geschäftsziele bewertet.

  • Die durch das Data Mining-Modell generierten Ergebnisse sollten anhand der Geschäftsziele bewertet werden.
  • Geschäftsverständnis zu erlangen ist ein iterativer Prozess. Während des Verständnisses können neue Geschäftsanforderungen aufgrund von Data Mining aufgeworfen werden.
  • Es wird eine Go- oder No-Go-Entscheidung getroffen, um das Modell in der Bereitstellungsphase zu verschieben.

Deployment:

In der Deployment-Phase bringen Sie Ihre Data Mining-Entdeckungen in den täglichen Geschäftsbetrieb.

  • Das Wissen oder die Informationen, die während des Data Mining-Prozesses entdeckt werden, sollten für nicht-technische Stakeholder leicht verständlich gemacht werden.
  • Ein detaillierter Bereitstellungsplan für Versand, Wartung und Überwachung von Data Mining-Entdeckungen wird erstellt.
  • Ein abschließender Projektbericht wird mit Lessons Learned und Schlüsselerfahrungen während des Projekts erstellt. Dies hilft, die Geschäftspolitik der Organisation zu verbessern.

Datamining-Techniken

Datamining-Techniken
Datamining-Techniken

1.Klassifizierung:

Diese Analyse wird verwendet, um wichtige und relevante Informationen über Daten und Metadaten abzurufen. Diese Data-Mining-Methode hilft, Daten in verschiedene Klassen zu klassifizieren.

2. Clustering:

Clustering-Analyse ist eine Data-Mining-Technik, um Daten zu identifizieren, die einander ähnlich sind. Dieser Prozess hilft, die Unterschiede und Ähnlichkeiten zwischen den Daten zu verstehen.

3. Regression:

Die Regressionsanalyse ist die Data-Mining-Methode zur Identifizierung und Analyse der Beziehung zwischen Variablen. Es wird verwendet, um die Wahrscheinlichkeit einer bestimmten Variablen angesichts des Vorhandenseins anderer Variablen zu identifizieren.

4. Assoziationsregeln:

Diese Data-Mining-Technik hilft, die Assoziation zwischen zwei oder mehr Elementen zu finden. Es entdeckt ein verstecktes Muster im Datensatz.

5. Äußere Erkennung:

Diese Art von Data-Mining-Technik bezieht sich auf die Beobachtung von Datenelementen im Datensatz, die nicht mit einem erwarteten Muster oder erwarteten Verhalten übereinstimmen. Diese Technik kann in einer Vielzahl von Bereichen eingesetzt werden, z. B. Intrusion, Detection, Fraud oder Fault Detection usw. Die äußere Erkennung wird auch als Ausreißeranalyse oder Outlier Mining bezeichnet.

6. Sequentielle Muster:

Diese Data-Mining-Technik hilft, ähnliche Muster oder Trends in Transaktionsdaten für einen bestimmten Zeitraum zu entdecken oder zu identifizieren.

7. Vorhersage:

Prediction hat eine Kombination der anderen Techniken des Data Mining wie Trends, sequentielle Muster, Clustering, Klassifizierung usw. verwendet. Es analysiert vergangene Ereignisse oder Instanzen in der richtigen Reihenfolge, um ein zukünftiges Ereignis vorherzusagen.

Herausforderungen bei der Implementierung von Data Mining:

  • Qualifizierte Experten werden benötigt, um die Data Mining-Abfragen zu formulieren.
  • Überanpassung: Aufgrund der geringen Größe der Trainingsdatenbank passt ein Modell möglicherweise nicht zu zukünftigen Zuständen.
  • Data Mining benötigt große Datenbanken, die manchmal schwierig zu verwalten sind
  • Die Geschäftspraktiken müssen möglicherweise geändert werden, um zu bestimmen, ob die aufgedeckten Informationen verwendet werden sollen.
  • Wenn der Datensatz nicht vielfältig ist, sind die Data Mining-Ergebnisse möglicherweise nicht genau.
  • Integration Benötigte Informationen aus heterogenen Datenbanken und globalen Informationssystemen können komplex sein

Data Mining-Beispiele:

In diesem Data Mining-Kurs erfahren Sie mehr über Data Mining anhand von Beispielen:

Beispiel 1:

Stellen Sie sich einen Marketingleiter für Telekommunikationsdienste vor, der die Einnahmen aus Ferndiensten steigern möchte. Für einen hohen ROI seiner Vertriebs- und Marketingbemühungen ist die Kundenprofilierung wichtig. Er verfügt über einen riesigen Datenpool an Kundeninformationen wie Alter, Geschlecht, Einkommen, Kredithistorie usw. Es ist jedoch unmöglich, Merkmale von Personen zu bestimmen, die Ferngespräche mit manueller Analyse bevorzugen. Mithilfe von Data-Mining-Techniken kann er Muster zwischen Benutzern von Ferngesprächen und ihren Eigenschaften aufdecken. Zum Beispiel könnte er erfahren, dass seine besten Kunden verheiratete Frauen zwischen 45 und 54 Jahren sind, die mehr als 80.000 Dollar pro Jahr verdienen. Marketing-Bemühungen können auf solche demografischen ausgerichtet sein.

Beispiel 2:

Eine Bank möchte nach neuen Wegen suchen, um die Einnahmen aus ihren Kreditkartengeschäften zu steigern. Sie wollen prüfen, ob sich die Nutzung verdoppeln würde, wenn die Gebühren halbiert würden.

Die Bank hat mehrere Jahre Erfahrung mit durchschnittlichen Kreditkartenguthaben, Zahlungsbeträgen, Kreditlimitnutzung und anderen wichtigen Parametern. Sie erstellen ein Modell, um die Auswirkungen der vorgeschlagenen neuen Geschäftspolitik zu überprüfen. Die Datenergebnisse zeigen, dass die Halbierung der Gebühren für einen gezielten Kundenstamm den Umsatz um 10 Millionen US-Dollar steigern könnte.

Data-Mining-Tools

Im Folgenden sind 2 beliebte Data-Mining-Tools aufgeführt, die in der Industrie weit verbreitet sind

R-Sprache:

R language ist ein Open-Source-Tool für statistische Berechnungen und Grafiken. R verfügt über eine Vielzahl statistischer, klassischer statistischer Tests, Zeitreihenanalyse, Klassifizierung und grafischer Techniken. Es bietet eine effektive Datenübergabe und -speicherung.

Erfahren Sie hier mehr

Oracle Data Mining:

Oracle Data Mining ist ein Modul der Oracle Advanced Analytics Database. Mit diesem Data Mining-Tool können Datenanalysten detaillierte Einblicke gewinnen und Vorhersagen treffen. Es hilft, das Kundenverhalten vorherzusagen, Kundenprofile zu entwickeln und Cross-Selling-Möglichkeiten zu identifizieren.

Erfahren Sie hier mehr

Vorteile von Data Mining:

  • Die Data Mining-Technik hilft Unternehmen, wissensbasierte Informationen zu erhalten.
  • Data Mining hilft Unternehmen, die profitablen Anpassungen in Betrieb und Produktion vorzunehmen.
  • Das Data Mining ist eine kostengünstige und effiziente Lösung im Vergleich zu anderen statistischen Datenanwendungen.
  • Data Mining hilft bei der Entscheidungsfindung.
  • Ermöglicht die automatisierte Vorhersage von Trends und Verhaltensweisen sowie die automatisierte Erkennung versteckter Muster.
  • Es kann sowohl in neuen Systemen als auch in bestehenden Plattformen implementiert werden
  • Es ist der schnelle Prozess, der es den Benutzern leicht macht, große Datenmengen in kürzerer Zeit zu analysieren.

Nachteile von Data Mining

  • Es besteht die Möglichkeit, dass Unternehmen nützliche Informationen ihrer Kunden für Geld an andere Unternehmen verkaufen. Zum Beispiel hat American Express Kreditkartenkäufe ihrer Kunden an die anderen Unternehmen verkauft.
  • Viele Data-Mining-Analysesoftware ist schwierig zu bedienen und erfordert Vorausschulung zu arbeiten.
  • Verschiedene Data-Mining-Tools arbeiten aufgrund unterschiedlicher Algorithmen, die in ihrem Design verwendet werden, auf unterschiedliche Weise. Daher ist die Auswahl des richtigen Data-Mining-Tools eine sehr schwierige Aufgabe.
  • Die Data-Mining-Techniken sind nicht genau und können daher unter bestimmten Bedingungen schwerwiegende Folgen haben.

Data Mining-Anwendungen

Anwendungen Nutzung
Kommunikation Data Mining-Techniken werden im Kommunikationssektor eingesetzt, um das Kundenverhalten vorherzusagen und zielgerichtete und relevante Kampagnen anzubieten.
Versicherung Data Mining hilft Versicherungsunternehmen, ihre Produkte profitabel zu bewerten und neue Angebote für ihre neuen oder bestehenden Kunden zu bewerben.
Bildung Mit Data Mining können Pädagogen auf Schülerdaten zugreifen, Leistungsniveaus vorhersagen und Schüler oder Schülergruppen finden, die besondere Aufmerksamkeit benötigen. Zum Beispiel Studenten, die in Mathematik schwach sind.
Manufacturing Mit Hilfe von Data Mining können Hersteller den Verschleiß von Produktionsanlagen vorhersagen. Sie können Wartungsarbeiten antizipieren, die ihnen helfen, sie zu reduzieren, um Ausfallzeiten zu minimieren.
Banking Data Mining hilft dem Finanzsektor, einen Überblick über Marktrisiken zu erhalten und die Einhaltung gesetzlicher Vorschriften zu verwalten. Es hilft Banken, wahrscheinliche Schuldner zu identifizieren, um zu entscheiden, ob Kreditkarten, Kredite usw. ausgegeben werden sollen.
Einzelhandel Data Mining-Techniken helfen Einzelhandelsgeschäften und Lebensmittelgeschäften, die meisten verkaufbaren Artikel in den aufmerksamsten Positionen zu identifizieren und anzuordnen. Es hilft Ladenbesitzern, das Angebot zu finden, das Kunden dazu ermutigt, ihre Ausgaben zu erhöhen.
Dienstleister Dienstleister wie Mobilfunk- und Versorgungsunternehmen nutzen Data Mining, um die Gründe vorherzusagen, aus denen ein Kunde sein Unternehmen verlässt. Sie analysieren Abrechnungsdetails, Kundendienstinteraktionen, Beschwerden an das Unternehmen, um jedem Kunden eine Wahrscheinlichkeitsbewertung zuzuweisen, und bieten Anreize.
E-Commerce E-Commerce-Websites verwenden Data Mining, um Cross- und Up-Sells über ihre Websites anzubieten. Einer der bekanntesten Namen ist Amazon, die Data-Mining-Techniken verwenden, um mehr Kunden in ihren E-Commerce-Shop zu bringen.
Supermärkte Data Mining ermöglicht es Supermärkten, Regeln zu entwickeln, um vorherzusagen, ob ihre Käufer wahrscheinlich erwarten würden. Durch die Bewertung ihres Kaufverhaltens konnten sie weibliche Kunden finden, die höchstwahrscheinlich schwanger sind. Sie können Produkte wie Babypuder, Baby-Shop, Windeln Targeting starten und so weiter.
Crime Investigation Data Mining hilft Kriminalpolizei, Polizeikräfte einzusetzen (wo ist ein Verbrechen am wahrscheinlichsten und wann?), die an einem Grenzübergang zu suchen usw.
Bioinformatik Data Mining hilft bei der Gewinnung biologischer Daten aus massiven Datensätzen, die in Biologie und Medizin gesammelt wurden.

Zusammenfassung:

  • Data Mining Definition: Beim Data Mining geht es darum, die Vergangenheit zu erklären und die Zukunft durch Datenanalyse vorherzusagen.
  • Data Mining hilft, Informationen aus riesigen Datenmengen zu extrahieren. Es ist das Verfahren, Wissen aus Daten zu gewinnen.
  • Der Data Mining-Prozess umfasst Geschäftsverständnis, Datenverständnis, Datenaufbereitung, Modellierung, Entwicklung und Bereitstellung.
  • Wichtige Data-Mining-Techniken sind Klassifizierung, Clustering, Regression, Assoziationsregeln, äußere Erkennung, sequentielle Muster und Vorhersage
  • R-Language und Oracle Data Mining sind herausragende Data-Mining-Tools und -Techniken.
  • Data Mining-Technik hilft Unternehmen, wissensbasierte Informationen zu erhalten.
  • Der Hauptnachteil von Data Mining besteht darin, dass viele Analysesoftwares schwierig zu bedienen sind und vorab geschult werden müssen.
  • Data Mining wird in verschiedenen Branchen wie Kommunikation, Versicherung, Bildung, Fertigung, Bankwesen, Einzelhandel, Dienstleister, E-Commerce und Bioinformatik eingesetzt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.