Articles

Tutorial di data Mining: Cos’è | Process/Techniques & Examples

Cos’è il Data Mining?

Il data Mining è un processo di ricerca di modelli potenzialmente utili da enormi set di dati. È un’abilità multidisciplinare che utilizza l’apprendimento automatico, le statistiche e l’IA per estrarre informazioni per valutare la probabilità di eventi futuri. Le informazioni derivate dal Data Mining vengono utilizzate per il marketing, il rilevamento delle frodi, la scoperta scientifica, ecc.

Il data Mining consiste nel scoprire relazioni nascoste, insospettate e precedentemente sconosciute ma valide tra i dati. Il Data mining è anche chiamato Knowledge Discovery in Data (KDD), Knowledge Extraction, data/pattern analysis, Information harvesting, ecc.

In questo tutorial di Data Mining, imparerai i fondamenti del Data Mining come-

  • Che cos’è il Data Mining?
  • Tipi di dati
  • Processo di implementazione del data mining
  • Comprensione aziendale:
  • Comprensione dei dati:
  • preparazione dei Dati:
  • trasformazione dei Dati:
  • Modellazione:
  • Tecniche di Data Mining
  • Sfide di Attuazione della Miniera di Dati:
  • Data Mining Esempi:
  • Strumenti di Data Mining
  • i Vantaggi di Data Mining:
  • gli Svantaggi di Data Mining
  • le Applicazioni di Data Mining

Tipi di Dati

il Data mining può essere effettuata sui seguenti tipi di dati

  • database Relazionali
  • Data warehouse
  • Avanzate DB e informazioni repository
  • Object-oriented e object-relational database
  • Transazionale e basi di dati Spaziali
  • Eterogenei e database legacy
  • Multimediali e streaming database
  • database di Testo
  • Text mining e Web mining

di Data Mining Attuazione Processo

Data Mining Processo di Attuazione
Data Mining Processo di Attuazione

Studiamo la Data Mining processo di attuazione in dettaglio

Business comprensione:

In questa fase, di business e di data-mining obiettivi stabiliti.

  • In primo luogo, è necessario comprendere gli obiettivi di business e client. È necessario definire ciò che il cliente vuole (che molte volte anche loro non conoscono se stessi)
  • Fare il punto sullo scenario di data mining corrente. Fattore di risorse, assunzione, vincoli e altri fattori significativi nella valutazione.
  • Utilizzando gli obiettivi di business e lo scenario attuale, definisci i tuoi obiettivi di data mining.
  • Un buon piano di data mining è molto dettagliato e dovrebbe essere sviluppato per raggiungere sia gli obiettivi di business e data mining.

Comprensione dei dati:

In questa fase, il controllo di integrità dei dati viene eseguito per verificare se è appropriato per gli obiettivi di data mining.

  • Innanzitutto, i dati vengono raccolti da più origini dati disponibili nell’organizzazione.
  • Queste origini dati possono includere più database, flat filer o cubi di dati. Ci sono problemi come la corrispondenza degli oggetti e l’integrazione dello schema che possono sorgere durante il processo di integrazione dei dati. Si tratta di un processo piuttosto complesso e difficile come i dati provenienti da varie fonti difficilmente corrispondono facilmente. Ad esempio, la tabella A contiene un’entità denominata cust_no mentre un’altra tabella B contiene un’entità denominata cust-id.
  • Pertanto, è abbastanza difficile garantire che entrambi questi oggetti dati si riferiscano allo stesso valore o meno. Qui, i metadati dovrebbero essere utilizzati per ridurre gli errori nel processo di integrazione dei dati.
  • Successivamente, il passo è cercare le proprietà dei dati acquisiti. Un buon modo per esplorare i dati consiste nel rispondere alle domande di data mining (decise in fase di business) utilizzando gli strumenti di query, reporting e visualizzazione.
  • In base ai risultati della query, la qualità dei dati deve essere accertata. I dati mancanti, se presenti, dovrebbero essere acquisiti.

Preparazione dei dati:

In questa fase, i dati vengono resi pronti per la produzione.

Il processo di preparazione dei dati consuma circa il 90% del tempo del progetto.

I dati provenienti da fonti diverse devono essere selezionati, puliti, trasformati, formattati, resi anonimi e costruiti (se necessario).

La pulizia dei dati è un processo per “pulire” i dati attenuando i dati rumorosi e riempiendo i valori mancanti.

Ad esempio, per un profilo demografico del cliente, mancano i dati relativi all’età. I dati sono incompleti e devono essere compilati. In alcuni casi, potrebbero esserci valori anomali dei dati. Ad esempio, l’età ha un valore 300. I dati potrebbero essere incoerenti. Ad esempio, il nome del cliente è diverso nelle diverse tabelle.

Le operazioni di trasformazione dei dati modificano i dati per renderli utili nel data mining. La trasformazione seguente può essere applicata

Trasformazione dei dati:

Le operazioni di trasformazione dei dati contribuirebbero al successo del processo di mining.

Levigatura: Aiuta a rimuovere il rumore dai dati.

Aggregazione: ai dati vengono applicate operazioni di riepilogo o aggregazione. Cioè, i dati di vendita settimanali sono aggregati per calcolare il totale mensile e annuale.

Generalizzazione: in questa fase, i dati di basso livello vengono sostituiti da concetti di livello superiore con l’aiuto di gerarchie concettuali. Ad esempio, la città è sostituita dalla contea.

Normalizzazione: Normalizzazione eseguita quando i dati degli attributi vengono ridimensionati o ridimensionati. Esempio: i dati dovrebbero rientrare nell’intervallo da -2.0 a 2.0 post-normalizzazione.

Costruzione di attributi: questi attributi sono costruiti e inclusi il set di attributi fornito utile per il data mining.

Il risultato di questo processo è un set di dati finale che può essere utilizzato nella modellazione.

Modellazione

In questa fase, i modelli matematici vengono utilizzati per determinare i modelli di dati.

  • In base agli obiettivi aziendali, devono essere selezionate tecniche di modellazione adeguate per il set di dati preparato.
  • Creare uno scenario per verificare la qualità e la validità del modello.
  • Eseguire il modello sul set di dati preparato.
  • I risultati dovrebbero essere valutati da tutte le parti interessate per assicurarsi che il modello possa soddisfare gli obiettivi di data mining.

Valutazione:

In questa fase, i modelli identificati vengono valutati rispetto agli obiettivi aziendali.

  • I risultati generati dal modello di data mining devono essere valutati rispetto agli obiettivi aziendali.
  • Acquisire comprensione aziendale è un processo iterativo. Infatti, mentre la comprensione, nuovi requisiti di business possono essere sollevate a causa di data mining.
  • Viene presa una decisione go o no-go per spostare il modello nella fase di distribuzione.

Distribuzione:

Nella fase di distribuzione, si spediscono le scoperte di data mining alle operazioni aziendali quotidiane.

  • Le conoscenze o le informazioni scoperte durante il processo di data mining dovrebbero essere rese facili da comprendere per gli stakeholder non tecnici.
  • Viene creato un piano di distribuzione dettagliato, per la spedizione, la manutenzione e il monitoraggio delle scoperte di data mining.
  • Viene creato un rapporto finale del progetto con le lezioni apprese e le esperienze chiave durante il progetto. Questo aiuta a migliorare la politica aziendale dell’organizzazione.

Tecniche di Data Mining

Tecniche di Data Mining
Tecniche di Data Mining

1.Classificazione:

Questa analisi viene utilizzata per recuperare informazioni importanti e rilevanti sui dati e sui metadati. Questo metodo di data mining aiuta a classificare i dati in classi diverse.

2. Clustering:

L’analisi di clustering è una tecnica di data mining per identificare dati simili tra loro. Questo processo aiuta a comprendere le differenze e le somiglianze tra i dati.

3. Regressione:

L’analisi di regressione è il metodo di data mining per identificare e analizzare la relazione tra variabili. Viene utilizzato per identificare la probabilità di una variabile specifica, data la presenza di altre variabili.

4. Regole di associazione:

Questa tecnica di data mining aiuta a trovare l’associazione tra due o più elementi. Scopre un modello nascosto nel set di dati.

5. Rilevamento esterno:

Questo tipo di tecnica di data mining si riferisce all’osservazione di elementi di dati nel set di dati che non corrispondono a un modello previsto o un comportamento previsto. Questa tecnica può essere utilizzata in una varietà di domini, come intrusione, rilevamento, frode o rilevamento di guasti, ecc. Il rilevamento esterno è anche chiamato Analisi outlier o estrazione outlier.

6. Modelli sequenziali:

Questa tecnica di data mining aiuta a scoprire o identificare modelli o tendenze simili nei dati delle transazioni per un certo periodo.

7. Previsione:

La previsione ha utilizzato una combinazione delle altre tecniche di data mining come tendenze, modelli sequenziali, clustering, classificazione, ecc. Analizza eventi o istanze passati in una sequenza corretta per prevedere un evento futuro.

Sfide di implementazione di Data mine:

  • Sono necessari esperti qualificati per formulare le query di data mining.
  • Overfitting: A causa di database di formazione di piccole dimensioni, un modello potrebbe non adattarsi stati futuri.
  • Il data mining ha bisogno di grandi database che a volte sono difficili da gestire
  • Le pratiche commerciali potrebbero dover essere modificate per determinare l’utilizzo delle informazioni scoperte.
  • Se il set di dati non è diverso, i risultati del data mining potrebbero non essere accurati.
  • Integrazione le informazioni necessarie da database eterogenei e sistemi informativi globali potrebbero essere complesse

Esempi di data mining:

Ora in questo corso di Data Mining, impariamo a conoscere il Data mining con esempi:

Esempio 1:

Si consideri un responsabile marketing del servizio di telecomunicazioni fornisce chi vuole aumentare i ricavi dei servizi a lunga distanza. Per un elevato ROI sulle sue vendite e sugli sforzi di marketing, la profilazione dei clienti è importante. Ha un vasto pool di dati di informazioni sui clienti come età, sesso, reddito, storia di credito, ecc. Ma è impossibile determinare le caratteristiche delle persone che preferiscono le chiamate a lunga distanza con l’analisi manuale. Utilizzando tecniche di data mining, egli può scoprire i modelli tra gli utenti di chiamata ad alta lunga distanza e le loro caratteristiche.

Ad esempio, potrebbe imparare che i suoi migliori clienti sono donne sposate tra i 45 ei 54 anni che guadagnano più di $80.000 all’anno. Gli sforzi di marketing possono essere mirati a tale demografico.

Esempio 2:

Una banca vuole cercare nuovi modi per aumentare i ricavi dalle sue operazioni con carta di credito. Vogliono verificare se l’utilizzo raddoppierebbe se le tasse fossero dimezzate.

La Banca ha più anni di record sui saldi medi delle carte di credito, sugli importi di pagamento, sull’utilizzo del limite di credito e su altri parametri chiave. Creano un modello per verificare l’impatto della nuova politica aziendale proposta. I risultati dei dati mostrano che tagliare le tasse a metà per una base di clienti mirata potrebbe aumentare i ricavi di million 10 milioni.

Strumenti di data Mining

Di seguito sono riportati 2 strumenti di Data Mining popolari ampiamente utilizzati nell’industria

R-language:

R language è uno strumento open source per il calcolo statistico e la grafica. R ha una vasta gamma di statistiche, test statistici classici, analisi delle serie temporali, classificazione e tecniche grafiche. Offre la consegna di dati efficace e la funzione di stoccaggio.

Per saperne di più qui

Oracle Data Mining:

Oracle Data Mining comunemente noto come ODM è un modulo del database Oracle Advanced Analytics. Questo strumento di data mining consente agli analisti di dati di generare approfondimenti dettagliati e fare previsioni. Aiuta a prevedere il comportamento dei clienti, sviluppa i profili dei clienti, identifica le opportunità di cross-selling.

Per saperne di più qui

Vantaggi del data Mining:

  • La tecnica di data mining aiuta le aziende a ottenere informazioni basate sulla conoscenza.
  • Data mining aiuta le organizzazioni a fare le regolazioni redditizie in funzione e la produzione.
  • Il data mining è una soluzione economica ed efficiente rispetto ad altre applicazioni di dati statistici.
  • Data mining aiuta con il processo decisionale.
  • Facilita la previsione automatizzata di tendenze e comportamenti, nonché la scoperta automatizzata di modelli nascosti.
  • Può essere implementato in nuovi sistemi e piattaforme esistenti
  • È il processo veloce che rende facile per gli utenti analizzare enormi quantità di dati in meno tempo.

Svantaggi di Data Mining

  • Ci sono possibilità di aziende possono vendere informazioni utili dei loro clienti ad altre aziende per soldi. Ad esempio, American Express ha venduto gli acquisti con carta di credito dei propri clienti alle altre società.
  • Molti software di analisi di data mining sono difficili da utilizzare e richiedono una formazione avanzata su cui lavorare.
  • Diversi strumenti di data mining funzionano in modi diversi a causa di diversi algoritmi impiegati nella loro progettazione. Pertanto, la selezione del corretto strumento di data mining è un compito molto difficile.
  • Le tecniche di data mining non sono accurate e quindi possono causare gravi conseguenze in determinate condizioni.

le Applicazioni di Data Mining

Applicazioni Utilizzo
Comunicazioni tecniche di Data mining sono utilizzati nel settore della comunicazione per prevedere il comportamento dei clienti e offrire altamente mirati e campagne pertinenti.
Assicurazione Data mining aiuta le compagnie di assicurazione di prezzo i loro prodotti redditizi e promuovere nuove offerte ai loro clienti nuovi o esistenti.
Istruzione Data mining benefici educatori per accedere ai dati degli studenti, prevedere i livelli di realizzazione e trovare studenti o gruppi di studenti che hanno bisogno di attenzione supplementare. Ad esempio, gli studenti che sono deboli in materia di matematica.
Manufacturing Con l’aiuto dei produttori di Data Mining è possibile prevedere l’usura delle attività produttive. Possono anticipare la manutenzione che li aiuta a ridurli per minimizzare i tempi di inattività.
Banking Data mining aiuta settore finanziario per ottenere una visione dei rischi di mercato e gestire la conformità normativa. Aiuta le banche a identificare i probabili inadempienti per decidere se emettere carte di credito, prestiti, ecc.
Retail Le tecniche di data Mining aiutano i centri commerciali e i negozi di alimentari a identificare e organizzare gli articoli più vendibili nelle posizioni più attente. Aiuta i proprietari dei negozi a venire con l’offerta che incoraggia i clienti ad aumentare la loro spesa.
Fornitori di servizi Fornitori di servizi come la telefonia mobile e le industrie di utilità utilizzano il Data Mining per prevedere le ragioni quando un cliente lascia la propria azienda. Analizzano i dettagli di fatturazione, le interazioni del servizio clienti, i reclami fatti alla società per assegnare a ciascun cliente un punteggio di probabilità e offre incentivi.
E-Commerce I siti web di e-commerce utilizzano il Data Mining per offrire vendite incrociate e up-selling attraverso i loro siti web. Uno dei nomi più famosi è Amazon, che utilizzano tecniche di data mining per ottenere più clienti nel loro negozio di e-commerce.
Super Mercati Data Mining permette di sviluppare regole del supermercato per prevedere se i loro acquirenti erano suscettibili di essere in attesa. Valutando il loro modello di acquisto, potrebbero trovare clienti donna che sono molto probabilmente incinta. Possono iniziare a prendere di mira prodotti come baby powder, baby shop, pannolini e così via.
Crime Investigation Data Mining aiuta le agenzie investigative crimine di distribuire forza lavoro di polizia (dove è un crimine più probabile che accada e quando?), chi cercare ad un valico di frontiera ecc.
Bioinformatica Il data Mining aiuta a estrarre dati biologici da enormi set di dati raccolti in biologia e medicina.

Sommario:

  • Data Mining definizione: Data Mining è tutto di spiegare il passato e prevedere il futuro tramite l’analisi dei dati.
  • Data mining aiuta ad estrarre informazioni da enormi insiemi di dati. È la procedura di estrazione della conoscenza dai dati.
  • Il processo di data mining include business understanding, Data Understanding, Data Preparation, Modelling, Evolution, Deployment.
  • Importanti tecniche di data mining sono la classificazione, il clustering, la regressione, le regole di associazione, il rilevamento esterno, i modelli sequenziali e la previsione
  • R-language e Oracle Data mining sono strumenti e tecniche di data mining importanti.
  • Tecnica di data mining aiuta le aziende a ottenere informazioni basate sulla conoscenza.
  • Lo svantaggio principale del data mining è che molti software di analisi è difficile da utilizzare e richiede una formazione avanzata su cui lavorare.
  • Data mining è utilizzato in diversi settori come comunicazioni, assicurazioni, istruzione, produzione, banche, vendita al dettaglio, fornitori di servizi, e-commerce, supermercati bioinformatica.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *