Tutorial Data Mining: ce este | proces | tehnici & Exemple
ce este data Mining?
Data Mining este un proces de a găsi modele potențial utile din seturi de date uriașe. Este o abilitate multidisciplinară care folosește învățarea automată, Statistici și AI pentru a extrage informații pentru a evalua probabilitatea evenimentelor viitoare. Informațiile derivate din extragerea datelor sunt utilizate pentru marketing, detectarea fraudelor, descoperirea științifică etc.
Data Mining se referă la descoperirea unor relații ascunse, nebănuite și necunoscute anterior, dar valide între date. Exploatarea datelor se mai numește descoperirea cunoștințelor în date (KDD), extragerea cunoștințelor, analiza datelor/modelelor, recoltarea informațiilor etc.
In acest tutorial Data Mining, veți învăța fundamentele Data Mining ca-
- ce este data Mining?
- tipuri de date
- procesul de implementare a minelor de date
- înțelegere de afaceri:
- înțelegere de date:
- pregătirea datelor:
- transformarea datelor:
- modelare:
- tehnici de extragere a datelor
- provocări ale implementării minelor de date:
- Exemple de extragere a datelor:
- instrumente de data mining
- beneficiile data mining:
- dezavantajele Data Mining
- aplicații Data Mining
tipuri de date
data mining pot fi efectuate pe următoarele tipuri de date
- baze de date relaționale
- depozite de date
- baze de date avansate DB și informații
- baze de date orientate pe obiecte și>
- baze de date tranzacționale și spațiale
- baze de date eterogene și moștenite
- baze de date multimedia și streaming
- baze de date text
- text mining și web mining
data mining implementare Proces
să studiem în detaliu procesul de implementare a minelor de date
înțelegere de afaceri:
În această fază, sunt stabilite obiectivele de afaceri și de exploatare a datelor.
- În primul rând, aveți nevoie pentru a înțelege obiectivele de afaceri și client. Trebuie să definiți ce dorește clientul dvs. (care de multe ori chiar și ei nu se cunosc)
- faceți bilanțul scenariului actual de extragere a datelor. Factori în resurse, presupuneri, constrângeri și alți factori semnificativi în evaluarea dvs.
- folosind obiectivele de afaceri și scenariul actual, definiți obiectivele dvs. de extragere a datelor.
- un plan bun de extragere a datelor este foarte detaliat și ar trebui dezvoltat pentru a îndeplini atât obiectivele de afaceri, cât și cele de extragere a datelor.
înțelegerea datelor:
în această fază, verificarea sănătății datelor este efectuată pentru a verifica dacă este adecvată pentru obiectivele de extragere a datelor.
- În primul rând, datele sunt colectate din mai multe surse de date disponibile în organizație.
- aceste surse de date pot include mai multe baze de date, filer plat sau cuburi de date. Există probleme cum ar fi potrivirea obiectelor și integrarea schemei care pot apărea în timpul procesului de integrare a datelor. Este un proces destul de complex și complicat, deoarece este puțin probabil ca datele din diverse surse să se potrivească cu ușurință. De exemplu, tabelul A conține o entitate numită cust_no, în timp ce un alt tabel B conține o entitate numită cust-id. prin urmare, este destul de dificil să se asigure că ambele obiecte date se referă la aceeași valoare sau nu. Aici, metadatele ar trebui utilizate pentru a reduce erorile în procesul de integrare a datelor.
- apoi, pasul este de a căuta proprietăți ale datelor achiziționate. O modalitate bună de a explora datele este de a răspunde la întrebările de extragere a datelor (decise în faza de afaceri) folosind instrumentele de interogare, raportare și vizualizare.
- Pe baza rezultatelor interogării, calitatea datelor ar trebui să fie stabilită. Date lipsă dacă ar trebui achiziționate.
pregătirea datelor:
în această fază, datele sunt pregătite pentru producție.
procesul de pregătire a datelor consumă aproximativ 90% din timpul proiectului.
datele din diferite surse trebuie selectate, curățate, transformate, formatate, anonimizate și construite (dacă este necesar).
curățarea datelor este un proces de „curățare” a datelor prin netezirea datelor zgomotoase și completarea valorilor lipsă.
de exemplu, pentru un profil demografic al clienților, datele privind vârsta lipsesc. Datele sunt incomplete și trebuie completate. În unele cazuri, ar putea exista date aberante. De exemplu, vârsta are o valoare de 300. Datele ar putea fi inconsistente. De exemplu, numele clientului este diferit în diferite tabele.
operațiunile de transformare a datelor modifică datele pentru a le face utile în extragerea datelor. Următoarele transformări pot fi aplicate
transformarea datelor:
operațiunile de transformare a datelor ar contribui la succesul procesului minier.
netezire: Ajută la eliminarea zgomotului din date.
agregare: sumarul sau operațiunile de agregare sunt aplicate datelor. Adică, datele de vânzări săptămânale sunt agregate pentru a calcula totalul lunar și anual.
generalizare: în acest pas, datele de nivel scăzut sunt înlocuite cu concepte de nivel superior cu ajutorul ierarhiilor conceptuale. De exemplu, orașul este înlocuit de județ.
normalizare: normalizare efectuată atunci când datele atributului sunt scalate o scalate în jos. Exemplu: datele ar trebui să se încadreze în intervalul -2.0-2.0 post-normalizare.
construcția atributelor: aceste atribute sunt construite și incluse setul dat de atribute utile pentru data mining.
rezultatul acestui proces este un set final de date care poate fi utilizat în modelare.
modelare
în această fază, modelele matematice sunt utilizate pentru a determina modelele de date.
- Pe baza obiectivelor de afaceri, ar trebui selectate tehnici de modelare adecvate pentru setul de date pregătit.
- creați un scenariu pentru a testa verificați calitatea și validitatea modelului.
- rulați modelul pe setul de date pregătit.
- rezultatele ar trebui evaluate de toate părțile interesate pentru a se asigura că modelul poate îndeplini obiectivele de extragere a datelor.
evaluare:
în această fază, modelele identificate sunt evaluate în raport cu obiectivele de afaceri.
- rezultatele generate de modelul data mining trebuie evaluate în raport cu obiectivele de afaceri.
- obținerea înțelegerii afacerii este un proces iterativ. De fapt, în timp ce înțelegerea, noi cerințe de afaceri pot fi ridicate din cauza data mining.
- se ia o decizie go sau no-go pentru a muta modelul în faza de implementare.
implementare:
în faza de implementare, expediați descoperirile dvs. de extragere a datelor către operațiunile de afaceri de zi cu zi.
- cunoștințele sau informațiile descoperite în timpul procesului de extragere a datelor ar trebui să fie ușor de înțeles pentru părțile interesate non-tehnice.
- este creat un plan detaliat de implementare, pentru transportul maritim, Întreținerea și monitorizarea descoperirilor miniere de date.
- un raport final de proiect este creat cu lecțiile învățate și experiențele cheie în timpul proiectului. Acest lucru ajută la îmbunătățirea politicii de afaceri a organizației.
tehnici de extragere a datelor
1.Clasificare:
această analiză este utilizată pentru a prelua informații importante și relevante despre date și metadate. Această metodă de extragere a datelor ajută la clasificarea datelor în diferite clase.
2. Clustering:
analiza Clustering este o tehnică de extragere a datelor pentru a identifica datele care sunt similare. Acest proces ajută la înțelegerea diferențelor și asemănărilor dintre date.
3. Regresie:
analiza de regresie este metoda de extragere a datelor de identificare și analiză a relației dintre variabile. Este folosit pentru a identifica probabilitatea unei variabile specifice, având în vedere prezența altor variabile.
4. Reguli de asociere:
această tehnică de extragere a datelor ajută la găsirea asocierii dintre două sau mai multe elemente. Descoperă un model ascuns în setul de date.
5. Detecție exterioară:
acest tip de tehnică de extragere a datelor se referă la observarea elementelor de date din setul de date care nu se potrivesc cu un model așteptat sau un comportament așteptat. Această tehnică poate fi utilizată într-o varietate de domenii, cum ar fi intruziunea, detectarea, frauda sau detectarea erorilor etc. Detectarea exterioară se mai numește analiză Outlier sau minerit Outlier.
6. Modele secvențiale:
această tehnică de extragere a datelor ajută la descoperirea sau identificarea modelelor sau tendințelor similare în datele tranzacțiilor pentru o anumită perioadă.
7. Predicție:
Predicția a folosit o combinație a celorlalte tehnici de extragere a datelor, cum ar fi tendințele, modelele secvențiale, gruparea, clasificarea etc. Analizează evenimentele sau instanțele din trecut într-o secvență corectă pentru prezicerea unui eveniment viitor.
provocări de implementare a minelor de date:
- sunt necesare experți calificați pentru a formula interogările de extragere a datelor.
- Overfitting: datorită bazei de date de formare de dimensiuni mici, un model poate să nu se potrivească Statelor viitoare.
- Data mining are nevoie de baze de date mari, care uneori sunt dificil de gestionat
- practicile de afaceri ar putea fi modificate pentru a determina utilizarea informațiilor descoperite.
- dacă setul de date nu este divers, rezultatele extragerii datelor pot să nu fie corecte.
- informațiile de integrare necesare din bazele de date eterogene și sistemele informatice globale ar putea fi complexe
Exemple de exploatare a datelor:
acum, în acest curs de exploatare a datelor, să învățăm despre exploatarea datelor cu exemple:
Exemplul 1:
luați în considerare un șef de marketing de servicii de telecomunicații oferă care vrea să crească veniturile de servicii pe distanțe lungi. Pentru ROI ridicat asupra vânzărilor sale și eforturile de marketing profilare client este important. El are o vastă bază de date de informații despre clienți, cum ar fi vârsta, sexul, venitul, istoricul creditelor etc. Dar imposibil de a determina caracteristicile de oameni care prefera apeluri la distanță lungă cu analiza manuală. Folosind tehnici de extragere a datelor, el poate descoperi modele între utilizatorii de apeluri la distanță mare și caracteristicile acestora. de exemplu ,el ar putea afla că cei mai buni clienți ai săi sunt femei căsătorite între 45 și 54 de ani, care câștigă mai mult de 80.000 de dolari pe an. Eforturile de Marketing pot fi direcționate către o astfel de demografie.
Exemplul 2:
o bancă dorește să caute noi modalități de a crește veniturile din operațiunile sale de card de credit. Vor să verifice dacă utilizarea S-ar dubla dacă taxele ar fi reduse la jumătate.
banca are mai mulți ani de înregistrare a soldurilor medii ale cardurilor de credit, a sumelor de plată, a utilizării limitei de credit și a altor parametri cheie. Acestea creează un model pentru a verifica impactul noii politici de afaceri propuse. Rezultatele datelor arată că reducerea taxelor la jumătate pentru o bază de clienți vizată ar putea crește veniturile cu 10 milioane de dolari.
instrumente de extragere a datelor
următoarele sunt 2 instrumente populare de extragere a datelor utilizate pe scară largă în industrie
R-language:
R language este un instrument open source pentru calcul statistic și grafică. R are o mare varietate de statistice, teste statistice clasice, analiza seriilor de timp, clasificarea și tehnici grafice. Oferă o facilitate eficientă de predare și depozitare a datelor.
Aflați mai multe aici
Oracle Data Mining:
Oracle Data Mining cunoscut popular ca ODM este un modul al bazei de date Oracle Advanced Analytics. Acest instrument de extragere a datelor permite analiștilor de date să genereze informații detaliate și să facă predicții. Ajută la prezicerea comportamentului clienților, la dezvoltarea profilurilor clienților, la identificarea oportunităților de vânzare încrucișată.
Aflați mai multe aici
beneficiile Data Mining:
- tehnica data mining ajută companiile să obțină informații bazate pe cunoștințe.
- Data mining ajută organizațiile să facă ajustările profitabile în exploatare și producție.
- Data mining este o soluție rentabilă și eficientă în comparație cu alte aplicații de date statistice.
- Data mining ajută la procesul de luare a deciziilor.
- facilitează predicția automată a tendințelor și comportamentelor, precum și descoperirea automată a tiparelor ascunse.
- acesta poate fi implementat în sisteme noi, precum și platforme existente
- este procesul rapid care îl face ușor pentru utilizatori pentru a analiza cantitate mare de date în mai puțin timp.
dezavantajele Data Mining
- există șanse de companii pot vinde informații utile ale clienților lor la alte companii pentru bani. De exemplu, American Express a vândut achizițiile de carduri de credit ale clienților lor către celelalte companii.
- multe software-ul de analiză Data mining este dificil de operat și necesită instruire în avans pentru a lucra la.
- diferite instrumente de extragere a datelor funcționează în moduri diferite datorită algoritmilor diferiți utilizați în proiectarea lor. Prin urmare, selectarea instrumentului corect de extragere a datelor este o sarcină foarte dificilă.
- tehnicile de extragere a datelor nu sunt exacte și, prin urmare, pot provoca consecințe grave în anumite condiții.
aplicații de extragere a datelor
utilizare | |
---|---|
tehnicile de extragere a datelor sunt utilizate în sectorul comunicațiilor pentru a prezice comportamentul clienților pentru a oferi campanii extrem de vizate și relevante. | |
Insurance | data mining ajută companiile de asigurări să-și prețuiască produsele profitabile și să promoveze noi oferte clienților lor noi sau existenți. |
Educație | data mining beneficii educatori pentru a accesa datele elevilor, prezice nivelurile de realizare și de a găsi studenți sau grupuri de elevi care au nevoie de o atenție suplimentară. De exemplu, elevii care sunt slabi în matematică subiect. |
Manufacturing | cu ajutorul producătorilor Data Mining poate prezice uzura activelor de producție. Ei pot anticipa întreținerea care îi ajută să le reducă pentru a minimiza timpul de nefuncționare. |
Banking | data mining ajută sectorul financiar pentru a obține o imagine a riscurilor de piață și de a gestiona conformitatea cu reglementările. Ajută băncile să identifice debitori probabili pentru a decide dacă să emită carduri de credit, împrumuturi etc. |
Retail | tehnicile de extragere a datelor ajută centrele comerciale și magazinele alimentare să identifice și să aranjeze cele mai vândute articole în pozițiile cele mai atente. Ajută proprietarii de magazine să vină cu oferta care încurajează clienții să-și mărească cheltuielile. |
furnizori de servicii | furnizori de servicii precum industria de telefonie mobilă și utilități folosesc extragerea datelor pentru a prezice motivele pentru care un client își părăsește compania. Ei analizează detaliile de facturare, interacțiunile cu serviciul pentru clienți, reclamațiile făcute companiei pentru a atribui fiecărui client un scor de probabilitate și oferă stimulente. |
e-Commerce | e-commerce site-uri web folosesc Data Mining pentru a oferi cross-sells și up-sells prin intermediul site-urile lor. Unul dintre cele mai cunoscute nume este Amazon, care utilizează tehnici de extragere a datelor pentru a atrage mai mulți clienți în magazinul lor de comerț electronic. |
Super Markets | Data Mining permite regulilor de dezvoltare ale supermarketurilor să prezică dacă cumpărătorii lor ar putea aștepta. Prin evaluarea lor model de cumpărare, ei ar putea găsi femei clienții care sunt cel mai probabil gravide. Ei pot începe de direcționare produse cum ar fi pudra pentru copii, magazin pentru copii, scutece și așa mai departe. |
Investigarea criminalității | exploatarea datelor ajută agențiile de investigare a criminalității să desfășoare forța de muncă a poliției (unde este cel mai probabil să se întâmple o infracțiune și când?), pe cine să caute la un punct de trecere a frontierei etc. |
Bioinformatica | Data Mining ajută la extragerea datelor biologice din seturi de date masive colectate în biologie și medicină. |
rezumat:
- Data Mining definiție: Data Mining este totul despre explicarea trecutului și prezicerea viitorului prin analiza datelor.
- Data mining ajută la extragerea informațiilor din seturi uriașe de date. Este procedura de cunoaștere minieră din date.
- procesul de extragere a datelor include înțelegerea afacerilor, înțelegerea datelor, pregătirea datelor, modelarea, evoluția, implementarea.
- tehnicile importante de extragere a datelor sunt clasificarea, gruparea, regresia, regulile de asociere, detectarea exterioară, modelele Secvențiale și predicția
- R-language și Oracle Data mining sunt instrumente și tehnici proeminente de extragere a datelor.
- tehnica de extragere a datelor ajută companiile să obțină informații bazate pe cunoștințe.
- principalul dezavantaj al mineritului de date este că multe programe de analiză sunt dificil de operat și necesită instruire în avans pentru a lucra.
- Data mining este utilizat în diverse industrii, cum ar fi comunicațiile, asigurările, educația, producția, serviciile bancare, Retail, furnizorii de servicii, comerțul electronic, supermarketurile bioinformatică.