Data Mining Tutorial: Hva er | Prosess | Teknikker og Eksempler
Hva Er Data Mining?
Data Mining er en prosess for å finne potensielt nyttige mønstre fra store datasett. Det er en tverrfaglig ferdighet som bruker maskinlæring, statistikk og AI for å trekke ut informasjon for å evaluere fremtidige hendelser sannsynlighet. Innsiktene fra Data Mining brukes til markedsføring, svindeloppdagelse, vitenskapelig funn, etc.
Data Mining handler om å oppdage skjulte, uoppdagede og tidligere ukjente, men gyldige forhold mellom dataene. Data mining kalles Også Kunnskap Funn I Data (KDD), Kunnskap utvinning, data/mønster analyse, informasjon høsting, etc.
I Denne Data Mining opplæringen, vil du lære det grunnleggende Av Data Mining som –
- Hva Er Data Mining?
- Datatyper
- Implementeringsprosess For Data Mining
- forretningsforståelse:
- dataforståelse:
- data forberedelse:
- data transformasjon:
- Modellering:
- Data Mining Teknikker
- Utfordringer Med Implementering Av Data Mine:
- Data Mining Eksempler:
- data mining verktøy
- fordeler med data mining:
- Ulemper Ved Data Mining
- Data Mining Applikasjoner
Typer data
data mining kan utføres på følgende typer data
data mining implementering Prosess
la oss studere data mining implementeringsprosessen i detalj
forretningsforståelse:
i denne fasen etableres forretnings-Og Datautvinningsmål.
- Først må du forstå forretnings-og klientmål. Du må definere hva kunden ønsker (som mange ganger selv de ikke kjenner seg selv)
- Ta lager av dagens data mining scenario. Faktor i ressurser, antagelse, begrensninger og andre viktige faktorer i vurderingen din.
- Ved hjelp av forretningsmål og gjeldende scenario, definere dine data mining mål.En god data mining plan er svært detaljert og bør utvikles for å oppnå både forretnings-og data mining mål.
data forståelse:
i denne fasen utføres sanity check på data for å sjekke om det passer for datautvinningsmålene.
- først samles data fra flere datakilder som er tilgjengelige i organisasjonen.
- disse datakildene kan inneholde flere databaser, flate filer eller datakuber. Det er problemer som object matching og schema integrasjon som kan oppstå Under Dataintegrasjonsprosessen. Det er en ganske komplisert og vanskelig prosess som data fra ulike kilder usannsynlig å matche lett. Tabell a inneholder for eksempel en enhet kalt cust_no, mens en annen tabell B inneholder en enhet kalt cust-id.
- derfor er det ganske vanskelig å sikre at begge disse gitte objektene refererer til samme verdi eller ikke. Her Skal Metadata brukes til å redusere feil i dataintegrasjonsprosessen.
- neste er trinnet å søke etter egenskaper for oppkjøpte data. En god måte å utforske dataene på er å svare på datautvinningsspørsmålene (bestemt i forretningsfasen) ved hjelp av spørringsverktøyene, rapporterings-og visualiseringsverktøyene.
- basert på resultatene av spørringen, bør datakvaliteten fastslås. Manglende data hvis noen skal skaffes.
data forberedelse:
i denne fasen blir data gjort produksjonsklar.
dataforberedelsesprosessen bruker omtrent 90% av prosjektets tid.
dataene fra ulike kilder skal velges, renses, transformeres, formateres, anonymiseres og konstrueres (om nødvendig).
datarensing er en prosess for å «rense» dataene ved å jevne ut støyende data og fylle ut manglende verdier.
aldersdata mangler for eksempel for en kundedemografiprofil. Dataene er ufullstendige og må fylles ut. I noen tilfeller kan det være data outliers. For eksempel har alder en verdi 300. Data kan være inkonsekvente. For eksempel er navnet på kunden forskjellig i forskjellige tabeller.
data transformation operasjoner endre data for å gjøre det nyttig i data mining. Følgende transformasjon kan brukes
datatransformasjon:
datatransformasjonsoperasjoner vil bidra til suksess for gruveprosessen.
Utjevning: Det bidrar til å fjerne støy fra dataene.
Aggregering: Sammendrag eller aggregeringsoperasjoner brukes på dataene. Dvs. de ukentlige salgsdataene aggregeres for å beregne månedlig og årlig total.
Generalisering: I dette trinnet erstattes data På Lavt nivå med konsepter på høyere nivå ved hjelp av konsepthierarkier. For eksempel er byen erstattet av fylket.
Normalisering: Normalisering utføres når attributtdataene skaleres opp o skaleres ned. Eksempel: Data skal falle i området -2,0 til 2,0 etter normalisering.
Attributt konstruksjon: disse attributtene er konstruert og inkludert gitt sett av attributter nyttig for data mining.
resultatet av denne prosessen er et endelig datasett som kan brukes i modellering.
Modellering
i denne fasen brukes matematiske modeller til å bestemme datamønstre.
- basert på forretningsmålene, bør egnede modelleringsteknikker velges for det forberedte datasettet.
- Lag et scenario for å teste sjekk kvaliteten og gyldigheten av modellen.
- Kjør modellen på det forberedte datasettet.
- Resultatene bør vurderes av alle interessenter for å sikre at modellen kan møte data mining mål.
Evaluering:
i denne fasen evalueres mønstre identifisert mot forretningsmålene.
- Resultater generert av datautvinningsmodellen bør evalueres mot forretningsmålene.
- Å Få forretningsforståelse er en iterativ prosess. Faktisk, mens du forstår, kan nye forretningskrav heves på grunn av datautvinning.
- en go eller no-go beslutning er tatt for å flytte modellen i distribusjonsfasen.
Distribusjon:
i distribusjonsfasen sender du data mining-funnene dine til daglig drift.
- kunnskap eller informasjon oppdaget under data mining prosessen bør gjøres lett å forstå for ikke-tekniske interessenter.
- en detaljert distribusjonsplan, for frakt, vedlikehold og overvåking av data mining funn er opprettet.
- en avsluttende prosjektrapport opprettes med erfaringer og viktige erfaringer under prosjektet. Dette bidrar til å forbedre organisasjonens forretningspolitikk.
Data Mining Teknikker
1.Klassifisering:
denne analysen brukes til å hente viktig og relevant informasjon om data og metadata. Denne data mining metoden bidrar til å klassifisere data i ulike klasser.
2. Clustering:
Clustering analyse Er en data mining teknikk for å identifisere data som er som hverandre. Denne prosessen bidrar til å forstå forskjellene og likhetene mellom dataene.
3. Regresjon:
Regresjonsanalyse Er datautvinningsmetoden for å identifisere og analysere forholdet mellom variabler. Det brukes til å identifisere sannsynligheten for en bestemt variabel, gitt tilstedeværelsen av andre variabler.
4. Tilknytningsregler:
denne datautvinningsteknikken bidrar til å finne sammenhengen mellom to Eller flere Elementer. Det oppdager et skjult mønster i datasettet.
5. Ytre deteksjon:
denne typen data mining teknikk refererer til observasjon av dataelementer i datasettet som ikke samsvarer med et forventet mønster eller forventet oppførsel. Denne teknikken kan brukes i en rekke domener,for eksempel inntrenging, deteksjon, svindel eller feilsøking, etc. Ytre deteksjon kalles Også Outlier Analyse eller Outlier mining.
6. Sekvensielle Mønstre:
denne data mining teknikken bidrar til å oppdage eller identifisere lignende mønstre eller trender i transaksjonsdata for en viss periode.
7. Spådom:
Prediksjon har brukt en kombinasjon av andre teknikker for data mining som trender, sekvensielle mønstre, clustering, klassifisering, etc. Den analyserer tidligere hendelser eller forekomster i riktig rekkefølge for å forutsi en fremtidig hendelse.
Utfordringer Med Implementering Av data mine:
- Dyktige Eksperter er nødvendig for å formulere data mining spørringer.
- Overfitting: på grunn av liten størrelse trening database, kan en modell ikke passer fremtidige tilstander.
- data mining trenger store databaser som noen ganger er vanskelig å administrere
- Forretningspraksis må kanskje endres for å bestemme seg for å bruke informasjonen avdekket.
- hvis datasettet ikke er mangfoldig, kan data mining resultatene ikke være nøyaktig. Integrasjonsinformasjon som trengs fra heterogene databaser og globale informasjonssystemer kan være komplekse
data mining Eksempler:
Nå i Dette Data Mining kurset, la oss lære Om data mining med eksempler:
Eksempel 1:
Vurdere en markedsføring leder av teletjenester gir som ønsker å øke inntektene av langdistanse tjenester. For høy ROI på hans salg og markedsføring er kundeprofilering viktig. Han har et stort data pool av kundeinformasjon som alder, kjønn, inntekt, kreditt historie, etc. Men det er umulig å bestemme egenskapene til folk som foretrekker langdistanse samtaler med manuell analyse. Ved hjelp av data mining teknikker, kan han avdekke mønstre mellom høy lang avstand samtale brukere og deres egenskaper. for eksempel kan han lære at hans beste kunder er gifte kvinner mellom 45 og 54 år som gjør mer enn $80.000 per år. Markedsføringstiltak kan være målrettet mot slike demografiske.
Eksempel 2:
en bank ønsker å søke nye måter å øke inntektene fra sine kredittkort operasjoner. De vil sjekke om bruken ville doble hvis avgiftene ble halvert.
Bank Har flere års rekord på gjennomsnittlig kredittkort saldoer, betalingsbeløp, kredittgrense bruk, og andre viktige parametere. De lager en modell for å sjekke virkningen av den foreslåtte nye næringspolitikken. Dataresultatene viser at kutte avgifter i halv for en målrettet kundebase kan øke inntektene med $ 10 millioner.
Data Mining Verktøy
Følgende er 2 populære Data Mining Verktøy mye brukt I Industrien
R-språk:
R språk er en åpen kildekode verktøy for statistisk databehandling og grafikk. R har et bredt spekter av statistiske, klassiske statistiske tester, tidsserieanalyse, klassifisering og grafiske teknikker. Det tilbyr effektiv data overlevering og lagring anlegget. Oracle Data Mining: Oracle Data Mining populært knowns SOM ODM Er en modul Av Oracle Advanced Analytics Database. Dette data mining verktøyet lar data analytikere til å generere detaljert innsikt og gjør spådommer. Det bidrar til å forutsi kundeatferd, utvikler kundeprofiler, identifiserer kryssalgsmuligheter.
Lær mer her
Fordeler Med Data Mining:
- data mining teknikk hjelper bedrifter å få kunnskapsbasert informasjon.
- data mining hjelper organisasjoner til å gjøre lønnsomme justeringer i drift og produksjon.
- data mining er en kostnadseffektiv og effektiv løsning sammenlignet med andre statistiske data applikasjoner.
- data mining hjelper med beslutningsprosessen.
- Muliggjør automatisert prediksjon av trender og atferd, samt automatisert oppdagelse av skjulte mønstre.
- det kan implementeres i nye systemer samt eksisterende plattformer
- Det er den raske prosessen som gjør det enkelt for brukerne å analysere stor mengde data på kortere tid.
Ulemper Av Data Mining
- det er sjansene for selskaper kan selge nyttig informasjon om sine kunder til andre selskaper for pengene. For Eksempel Har American Express solgt kredittkortkjøp av sine kunder til de andre selskapene. Mange data mining analytics programvare er vanskelig å betjene og krever forhåndstrening for å jobbe med. Ulike data mining verktøy fungerer på ulike måter på grunn av ulike algoritmer ansatt i deres design. Derfor er valg av riktig data mining verktøyet en svært vanskelig oppgave.
- data mining teknikker er ikke nøyaktig, og så det kan føre til alvorlige konsekvenser i visse forhold.
Data Mining Applikasjoner
Applikasjoner | Bruk |
---|---|
Kommunikasjon | data mining teknikker brukes i kommunikasjonssektoren for å forutsi kundeatferd for å tilby svært målrettede og relevante kampanjer. Data mining hjelper forsikringsselskaper til å prise sine produkter lønnsomme og fremme nye tilbud til sine nye eller eksisterende kunder. | Utdanning | data mining fordeler lærere til å få tilgang til studentdata, forutsi prestasjonsnivåer og finne studenter eller grupper av studenter som trenger ekstra oppmerksomhet. For eksempel studenter som er svake i matte fag. | Produksjon | Med Hjelp Av Data Mining Produsenter kan forutsi slitasje av produksjonsmidler. De kan forutse vedlikehold som hjelper dem med å redusere dem for å minimere nedetid. |
Banking | data mining hjelper finanssektoren med å få oversikt over markedsrisiko og administrere overholdelse av regelverk. Det hjelper bankene å identifisere sannsynlige defaulters å avgjøre om å utstede kredittkort, lån, etc. | Retail | Data Mining teknikker hjelpe kjøpesentre og dagligvarebutikker identifisere og ordne mest salgbare elementer i de mest oppmerksomme posisjoner. Det hjelper butikkeiere å komme opp med tilbudet som oppfordrer kundene til å øke sine utgifter. |
Tjenesteleverandører | Tjenesteleverandører som mobiltelefon og utility industries bruker Data Mining for å forutsi årsakene når en kunde forlater sitt selskap. De analyserer faktureringsdetaljer, kundeserviceinteraksjoner, klager til selskapet for å tildele hver kunde en sannsynlighetspoeng og tilbyr insentiver. |
E-Handel | E-handel nettsteder bruker Data Mining å tilby kryss-selger og opp-selger gjennom sine nettsteder. Et av De mest kjente navnene Er Amazon, som bruker data mining teknikker for å få flere kunder til sin e-handel butikk. |
Super Markets | Data Mining lar supermarkedets utvikle regler for å forutsi om deres kunder sannsynligvis ville forvente. Ved å vurdere deres kjøp mønster, de kunne finne kvinne kunder som er mest sannsynlig gravid. De kan begynne å målrette produkter som babypulver, babybutikk, bleier og så videre. | Kriminalitet Etterforskning | Data Mining hjelper kriminalitet etterforskning byråer til å distribuere politiet arbeidsstyrke (hvor er en forbrytelse mest sannsynlig til å skje, og når?), hvem som skal søke på en grenseovergang etc. |
Bioinformatikk | Data Mining bidrar til å utvinne biologiske data fra massive datasett samlet i biologi og medisin. |
Sammendrag:
- Data Mining Definisjon: Data Mining handler om å forklare fortiden og forutsi fremtiden via Dataanalyse.
- data mining bidrar til å trekke ut informasjon fra store sett med data. Det er prosedyren for gruvedrift av kunnskap fra data.data mining prosessen inkluderer forretningsforståelse, Data Forståelse, Data Forberedelse, Modellering, Evolusjon, Distribusjon.Viktige data mining teknikker Er Klassifisering, clustering, Regresjon, Assosiasjon regler, Ytre deteksjon, Sekvensielle Mønstre, og prediksjon R-språk Og Oracle data mining er fremtredende data mining verktøy og teknikker.
- data mining teknikk hjelper bedrifter å få kunnskapsbasert informasjon. den største ulempen ved data mining er at mange analyseprogramvare er vanskelig å betjene og krever forhåndstrening for å jobbe med. data mining brukes i ulike bransjer som Kommunikasjon, Forsikring, Utdanning, Produksjon, Bank, Detaljhandel, Tjenesteleverandører, e-handel, Supermarkeder Bioinformatikk.