Data Mining Tutorial: Wat is | Process/Techniques & Examples
Wat is Data Mining?
datamining is een proces om potentieel nuttige patronen te vinden uit enorme datasets. Het is een multidisciplinaire vaardigheid die machine learning, statistieken en AI gebruikt om informatie te extraheren om de waarschijnlijkheid van toekomstige gebeurtenissen te evalueren. De inzichten uit datamining worden gebruikt voor marketing, fraudedetectie, wetenschappelijke ontdekking, enz.
Data Mining gaat over het ontdekken van Verborgen, onverwachte en voorheen onbekende maar geldige relaties tussen de data. Datamining wordt ook Kennisontdekking in Data (KDD), Kennisextractie, data/pattern analyse, informatie oogsten, enz.
in deze Data Mining tutorial leert u de grondbeginselen van data Mining zoals –
- Wat is Data Mining?
- soorten gegevens
- implementatieproces voor datamining
- business understanding:
- data understanding:
- data preparation:
- data transformation:
- Modelling:
- Data Mining Techniques
- Challenges of Implementation of Data Mining:
- Data Mining Examples:
- Data Mining Tools
- voordelen van datamining:
- Nadelen van Data Mining
- Data Mining Toepassingen
Soorten Gegevens
Data mining kan worden uitgevoerd op de volgende soorten van gegevens
- Relationele databases
- Data warehouses
- Geavanceerde DB en informatie repositories
- Object-georiënteerd en object-relationele databases
- Transactionele en Ruimtelijke databases
- Heterogene en legacy databases
- Mms en streaming database
- Tekst-databases
- Text mining en Web mining
Data Mining Uitvoering Proces
Laat de studie van het datamining proces in detail
Zakelijk inzicht:
In deze fase, business-en data-mining doelen zijn vastgesteld.
- eerst moet u de zakelijke en klantdoelstellingen begrijpen. U moet definiëren wat uw cliënt wil (wat vaak zelfs zij zelf niet weten)
- maak de balans op van het huidige datamining scenario. Factor in middelen, aanname, beperkingen, en andere belangrijke factoren in uw beoordeling.
- met behulp van zakelijke doelstellingen en het huidige scenario, Definieer uw data mining doelen.
- een goed data mining plan is zeer gedetailleerd en moet worden ontwikkeld om zowel zakelijke als data mining doelen te bereiken.
inzicht in gegevens:
In deze fase wordt een saniteitscontrole op gegevens uitgevoerd om te controleren of deze geschikt is voor de dataminingdoelstellingen.
- eerst worden gegevens verzameld uit meerdere gegevensbronnen die beschikbaar zijn in de organisatie.
- deze gegevensbronnen kunnen meerdere databases, platte filer of gegevensblokjes bevatten. Er zijn problemen zoals object matching en schema-integratie die kunnen ontstaan tijdens Data-Integratie proces. Het is een vrij complex en lastig proces als gegevens uit verschillende bronnen waarschijnlijk niet gemakkelijk overeenkomen. Tabel A bevat bijvoorbeeld een entiteit met de naam cust_no, terwijl een andere tabel B een entiteit met de naam cust-id bevat.
- daarom is het vrij moeilijk om ervoor te zorgen dat beide gegeven objecten verwijzen naar dezelfde waarde of niet. Hier, Metadata moet worden gebruikt om fouten in de data-integratie proces te verminderen.
- volgende stap is het zoeken naar Eigenschappen van verkregen gegevens. Een goede manier om de gegevens te verkennen is om de data mining vragen te beantwoorden (besloten in de bedrijfsfase) met behulp van de query, rapportage en visualisatie tools.
- op basis van de resultaten van de query moet de kwaliteit van de gegevens worden vastgesteld. Eventuele ontbrekende gegevens moeten worden verkregen.
voorbereiding van de gegevens:
in deze fase worden de gegevens klaargemaakt voor de productie.
het gegevensvoorbereidingsproces kost ongeveer 90% van de tijd van het project.
de gegevens uit verschillende bronnen moeten worden geselecteerd, schoongemaakt, getransformeerd, geformatteerd, geanonimiseerd en geconstrueerd (indien nodig).
data cleaning is een proces om de gegevens “schoon te maken” door lawaaierige gegevens glad te maken en ontbrekende waarden in te vullen.
voor een demografisch profiel van een klant ontbreken bijvoorbeeld leeftijdsgegevens. De gegevens zijn onvolledig en moeten worden ingevuld. In sommige gevallen kunnen er gegevens uitschieters zijn. Leeftijd heeft bijvoorbeeld een waarde van 300. Gegevens kunnen inconsistent zijn. De naam van de klant is bijvoorbeeld verschillend in verschillende tabellen.
data transformation operations veranderen de gegevens om ze nuttig te maken in data mining. Volgende transformatie kan worden toegepast
data transformatie:
data transformatie operaties zouden bijdragen aan het succes van de mijnbouw proces.
gladmaken: Het helpt om ruis uit de gegevens te verwijderen.
aggregatie: op de gegevens worden samenvattende of aggregatiehandelingen toegepast. Dat wil zeggen, de wekelijkse verkoopgegevens worden geaggregeerd om het maandelijkse en jaarlijkse totaal te berekenen.
generalisatie: in deze stap worden gegevens op laag niveau vervangen door concepten op hoger niveau met behulp van concepthiërarchieën. Zo wordt de stad vervangen door de provincie.
normalisatie: normalisatie uitgevoerd wanneer de attribuutgegevens worden opgeschaald o verlaagd. Voorbeeld: de gegevens zouden in het bereik -2.0 tot 2.0 na normalisatie moeten vallen.
Attribuutconstructie: deze attributen zijn geconstrueerd en opgenomen de gegeven set van attributen nuttig voor data mining.
het resultaat van dit proces is een definitieve dataset die gebruikt kan worden in modellering.
modellering
in deze fase worden wiskundige modellen gebruikt om datapatronen te bepalen.
- Op basis van de bedrijfsdoelstellingen moeten geschikte modelleringstechnieken worden geselecteerd voor de voorbereide dataset.
- Maak een scenario om de kwaliteit en geldigheid van het model te testen.
- voer het model uit op de voorbereide dataset.
- de resultaten moeten door alle belanghebbenden worden beoordeeld om ervoor te zorgen dat het model aan de dataminingdoelstellingen kan voldoen.
evaluatie:
in deze fase worden de geïdentificeerde patronen getoetst aan de bedrijfsdoelstellingen.
- de resultaten van het dataminingmodel moeten worden beoordeeld aan de hand van de bedrijfsdoelstellingen.
- het verkrijgen van inzicht in het bedrijfsleven is een iteratief proces. In feite, terwijl het begrijpen, nieuwe zakelijke eisen kunnen worden verhoogd als gevolg van datamining.
- Er wordt een go-of no-go-beslissing genomen om het model in de stationeringsfase te verplaatsen.
implementatie:
in de implementatiefase verzendt u uw ontdekkingen voor datamining naar alledaagse bedrijfsactiviteiten.
- de kennis of informatie die tijdens het dataminingproces is ontdekt, moet voor niet-technische belanghebbenden gemakkelijk te begrijpen zijn.
- Er wordt een gedetailleerd implementatieplan opgesteld voor de scheepvaart, het onderhoud en de monitoring van ontdekkingen in datamining.
- Er wordt een eindrapport opgesteld met lessen en belangrijke ervaringen tijdens het project. Dit helpt om het bedrijfsbeleid van de organisatie te verbeteren.
Dataminingtechnieken
1.Classificatie:
deze analyse wordt gebruikt om belangrijke en relevante informatie over gegevens en metagegevens op te vragen. Deze data mining methode helpt om gegevens te classificeren in verschillende klassen.
2. Clustering:
Clustering analyse is een datamining techniek om gegevens te identificeren die op elkaar lijken. Dit proces helpt om de verschillen en overeenkomsten tussen de gegevens te begrijpen.
3. Regressie:
regressieanalyse is de dataminingmethode voor het identificeren en analyseren van de relatie tussen variabelen. Het wordt gebruikt om de waarschijnlijkheid van een specifieke variabele te identificeren, gezien de aanwezigheid van andere variabelen.
4. Associatie regels:
Deze datamining techniek helpt om de associatie tussen twee of meer Items te vinden. Het ontdekt een verborgen patroon in de dataset.
5. Detectie aan de buitenkant:
Dit type dataminingtechniek verwijst naar de observatie van gegevensitems in de dataset die niet overeenkomen met een verwacht patroon of verwacht gedrag. Deze techniek kan worden gebruikt in een verscheidenheid van domeinen, zoals inbraak, detectie, fraude of foutdetectie, enz. Buitenste detectie wordt ook wel uitschieters analyse of uitschieters mijnbouw genoemd.
6. Sequentiële patronen:
Deze dataminingtechniek helpt bij het ontdekken of identificeren van vergelijkbare patronen of trends in transactiegegevens voor een bepaalde periode.
7. Voorspellen:
voorspelling heeft gebruik gemaakt van een combinatie van de andere technieken van datamining zoals trends, sequentiële patronen, clustering, classificatie, enz. Het analyseert gebeurtenissen uit het verleden of instanties in een juiste volgorde voor het voorspellen van een toekomstige gebeurtenis.
uitdagingen bij de implementatie van Data mine:
- geschoolde deskundigen zijn nodig om de data mining queries te formuleren.
- overbevissing: door een kleine opleidingsdatabase past een model mogelijk niet in toekomstige Staten.
- datamining heeft grote databases nodig die soms moeilijk te beheren zijn
- bedrijfspraktijken moeten wellicht worden gewijzigd om te bepalen of de ongedekte informatie moet worden gebruikt.
- als de gegevensverzameling niet divers is, zijn de resultaten van datamining mogelijk niet nauwkeurig.
- integratie-informatie die nodig is uit heterogene databases en wereldwijde informatiesystemen kan complex zijn
Data mining voorbeelden:
in deze cursus Data Mining leren we nu meer over Data mining met voorbeelden:
Voorbeeld 1:
overweeg een marketinghoofd van telecomdiensten die de inkomsten van langeafstandsdiensten wil verhogen. Voor een hoge ROI op zijn verkoop en marketing inspanningen klant profilering is belangrijk. Hij heeft een enorme datapool van klantinformatie zoals leeftijd, geslacht, inkomen, kredietgeschiedenis, enz. Maar het is onmogelijk om kenmerken van mensen die liever lange afstand gesprekken met handmatige analyse te bepalen. Met behulp van data mining technieken, kan hij patronen tussen hoge lange afstand gesprek gebruikers en hun kenmerken te ontdekken. hij zou bijvoorbeeld kunnen leren dat zijn beste klanten getrouwde vrouwen tussen de leeftijd van 45 en 54 jaar zijn die meer dan $80.000 per jaar verdienen. Marketing inspanningen kunnen worden gericht op dergelijke demografische.
Voorbeeld 2:
een bank wil nieuwe manieren zoeken om inkomsten uit haar creditcardtransacties te verhogen. Ze willen controleren of het gebruik zou verdubbelen als de kosten werden gehalveerd.
Bank heeft meerdere jaren ervaring met gemiddelde credit card saldi, betalingsbedragen, kredietlimietgebruik en andere belangrijke parameters. Zij creëren een model om de impact van het voorgestelde nieuwe bedrijfsbeleid te controleren. De resultaten van de gegevens tonen aan dat het snijden van de kosten in de helft voor een doelgericht klantenbestand de inkomsten zou kunnen verhogen met $10 miljoen.
Data Mining Tools
volgende zijn 2 populaire Data Mining Tools die veel worden gebruikt in de industrie
R-language:
R language is een open source tool voor statistische computing en grafieken. R heeft een grote verscheidenheid aan statistische, klassieke statistische tests, tijdreeksanalyse, classificatie en grafische technieken. Het biedt effectieve gegevensoverdracht en opslagfaciliteit.
leer hier meer
Oracle Data Mining:
Oracle Data Mining is een module van de Oracle Advanced Analytics Database. Met deze Data mining tool kunnen data-analisten gedetailleerde inzichten genereren en voorspellingen doen. Het helpt bij het voorspellen van klantgedrag, ontwikkelt klantprofielen, identificeert cross-selling kansen.
leer hier meer
voordelen van datamining:
- Dataminingtechniek helpt bedrijven om op kennis gebaseerde informatie te verkrijgen.
- datamining helpt organisaties om de winstgevende aanpassingen in bedrijf en productie te maken.
- de datamining is een kosteneffectieve en efficiënte oplossing in vergelijking met andere toepassingen voor statistische gegevens.
- datamining helpt bij het besluitvormingsproces.
- vergemakkelijkt het automatisch voorspellen van trends en gedrag en het automatisch ontdekken van verborgen patronen.
- Het kan zowel in nieuwe systemen als in bestaande platforms worden geïmplementeerd
- het is het snelle proces dat het voor de gebruikers gemakkelijk maakt om enorme hoeveelheden gegevens in minder tijd te analyseren.
nadelen van datamining
- Er is kans dat bedrijven nuttige informatie van hun klanten voor geld aan andere bedrijven verkopen. Bijvoorbeeld, American Express heeft creditcardaankopen van hun klanten verkocht aan de andere bedrijven.
- veel data mining analytics software is moeilijk te bedienen en vereist een voorafgaande training om aan te werken.
- verschillende data mining tools werken op verschillende manieren als gevolg van verschillende algoritmen gebruikt in hun ontwerp. Daarom is de selectie van de juiste data mining tool is een zeer moeilijke taak.
- de dataminingtechnieken zijn niet nauwkeurig en kunnen daarom onder bepaalde omstandigheden ernstige gevolgen hebben.
Dataminingapplicaties
toepassingen | gebruik | communicatie | Dataminingtechnieken worden gebruikt in de communicatiesector om te voorspellen dat het gedrag van klanten zeer doelgerichte en relevante campagnes zal bieden. |
---|---|
verzekeringen | datamining helpt verzekeringsmaatschappijen om hun producten rendabel te prijzen en nieuwe aanbiedingen aan hun nieuwe of bestaande klanten te promoten. |
onderwijs | Data mining voordelen docenten om toegang te krijgen tot studentengegevens, prestatieniveaus te voorspellen en studenten of groepen studenten te vinden die extra aandacht nodig hebben. Bijvoorbeeld, studenten die zwak zijn in wiskunde onderwerp. |
fabricage | met behulp van datamining kunnen fabrikanten slijtage van productiemiddelen voorspellen. Ze kunnen anticiperen op onderhoud dat hen helpt ze te verminderen om downtime te minimaliseren. |
Bankieren | datamining helpt de financiële sector een overzicht te krijgen van marktrisico ‘ s en de naleving van de regelgeving te beheren. Het helpt banken om mogelijke wanbetalers te identificeren om te beslissen of ze creditcards, leningen, enz.uitgeven. |
Retail | Dataminingtechnieken helpen winkelcentra en supermarkten om de meest verkoopbare items op de meest attente posities te identificeren en te rangschikken. Het helpt winkeliers om komt met het aanbod dat klanten aanmoedigt om hun uitgaven te verhogen. |
serviceproviders | serviceproviders zoals mobiele telefoons en nutsbedrijven gebruiken datamining om de redenen te voorspellen wanneer een klant zijn bedrijf verlaat. Ze analyseren factureringsgegevens, klantenservice interacties, klachten die bij het bedrijf worden ingediend om elke klant een kanssscore toe te wijzen en biedt prikkels. |
E-Commerce | e-commercewebsites gebruiken datamining om cross-sells en up-sells via hun websites aan te bieden. Een van de meest bekende namen is Amazon, die gebruik maken van data mining technieken om meer klanten in hun e-commerce winkel. |
supermarkten | met behulp van Data Mining kunnen de ontwikkelings regels van supermarkten voorspellen of hun klanten waarschijnlijk verwacht zouden worden. Door het evalueren van hun kopen patroon, konden ze vrouwelijke klanten die het meest waarschijnlijk zwanger zijn te vinden. Ze kunnen beginnen zich te richten op producten zoals babypoeder, babywinkel, luiers en ga zo maar door. |
Criminaliteitsonderzoek | datamining helpt misdaadonderzoeksinstanties om politiepersoneel in te zetten (waar is een misdrijf het meest waarschijnlijk en wanneer?), wie te zoeken bij een grensovergang etc. |
Bioinformatica | datamining helpt bij het delven van biologische gegevens uit massieve datasets verzameld in de biologie en de geneeskunde. |
samenvatting:
- Data Mining definitie: Data Mining gaat over het verklaren van het verleden en het voorspellen van de toekomst via Data-analyse.
- datamining helpt om informatie uit enorme reeksen gegevens te extraheren. Het is de procedure van de mijnbouw kennis uit gegevens.
- Dataminingproces omvat inzicht in het bedrijfsleven, inzicht in gegevens, gegevensvoorbereiding, modellering, evolutie, implementatie.
- belangrijke Data mining technieken zijn classificatie, clustering, regressie, associatie regels, buitenste detectie, sequentiële patronen en voorspelling
- R-taal en Oracle Data mining zijn prominente data mining tools en technieken.
- Dataminingtechniek helpt bedrijven om op kennis gebaseerde informatie te verkrijgen.
- het grootste nadeel van datamining is dat veel analysesoftware moeilijk te bedienen is en vooraf moet worden opgeleid om aan te werken.
- datamining wordt gebruikt in diverse industrieën zoals communicatie, verzekeringen, onderwijs, productie, Bankieren, detailhandel, dienstverleners, eCommerce, Bioinformatica voor supermarkten.