Articles

Data Mining Tutorial: Vad är / Process / tekniker & exempel

Vad är Data Mining?

Data Mining är en process för att hitta potentiellt användbara mönster från stora datamängder. Det är en tvärvetenskaplig färdighet som använder maskininlärning, statistik och AI för att extrahera information för att utvärdera framtida händelser Sannolikhet. De insikter som härrör från Data Mining används för marknadsföring, bedrägeri upptäckt, vetenskaplig upptäckt, etc.

data Mining handlar om att upptäcka dolda, oanvända och tidigare okända men giltiga relationer mellan data. Data mining kallas också Kunskapsupptäckt i Data (KDD), Kunskapsutvinning, data/mönsteranalys, informationsskörd etc.

i denna data Mining handledning kommer du att lära dig grunderna i Data Mining som-

  • Vad är Data Mining?
  • typer av Data
  • implementeringsprocess för datautvinning
  • affärsförståelse:
  • dataförståelse:
  • databeredning:
  • datatransformation:
  • modellering:
  • Data Mining tekniker
  • utmaningar för genomförandet av data Mine:
  • Data Mining exempel:
  • data mining tools
  • fördelar med data mining:
  • nackdelar med Data Mining
  • Data Mining applikationer

typer av Data

data mining kan utföras på följande typer av data

  • relationsdatabaser
  • datalager
  • avancerade DB och informationsarkiv
  • objektorienterade och objektrelationsdatabaser
  • transaktions-och rumsliga databaser
  • heterogena och äldre databaser
  • multimedia och streaming databas
  • textdatabaser
  • text mining och web mining

data mining implementation Process

implementeringsprocess för datautvinning
implementeringsprocess för datautvinning

låt oss studera implementeringsprocessen för data mining i detalj

affärsförståelse:

i denna fas fastställs affärs-och Datautvinningsmål.

  • först måste du förstå affärs-och kundmål. Du måste definiera vad din klient vill ha (som många gånger även de inte känner sig själva)
  • ta reda på det aktuella datautvinningsscenariot. Faktor i resurser, antagande, begränsningar och andra viktiga faktorer i din bedömning.
  • använd affärsmål och nuvarande scenario, definiera dina data mining mål.
  • en bra data mining plan är mycket detaljerad och bör utvecklas för att uppnå både affärs-och data mining mål.

data förståelse:

i denna fas utförs sanitetskontroll av data för att kontrollera om det är lämpligt för datautvinningsmålen.

  • först samlas data från flera datakällor tillgängliga i organisationen.
  • dessa datakällor kan innehålla flera databaser, platta filer eller datakuber. Det finns problem som objektmatchning och schemaintegration som kan uppstå under Dataintegrationsprocessen. Det är en ganska komplex och knepig process som data från olika källor osannolikt att matcha lätt. Tabell A innehåller till exempel en enhet som heter cust_no medan en annan tabell B innehåller en enhet som heter cust-id.
  • därför är det ganska svårt att se till att båda dessa givna objekt hänvisar till samma värde eller inte. Här bör Metadata användas för att minska fel i dataintegrationsprocessen.
  • nästa steg är att söka efter egenskaper för förvärvade data. Ett bra sätt att utforska data är att svara på data mining frågor (beslutas i affärsfasen) med hjälp av fråga, rapportering och visualisering verktyg.
  • baserat på resultaten av frågan bör datakvaliteten fastställas. Saknade uppgifter om några bör förvärvas.

databeredning:

i denna fas görs data produktionsklar.

databeredningsprocessen förbrukar cirka 90% av projektets tid.

data från olika källor ska väljas, rengöras, transformeras, formateras, anonymiseras och konstrueras (om det behövs).

datarengöring är en process för att” rengöra ” data genom att jämna ut bullriga data och fylla i saknade värden.

till exempel, för en kund demografi profil, ålder data saknas. Uppgifterna är ofullständiga och bör fyllas i. I vissa fall kan det finnas dataavvikelser. Till exempel har ålder ett värde 300. Data kan vara inkonsekvent. Till exempel är kundens namn annorlunda i olika tabeller.

datatransformationsoperationer ändrar data för att göra det användbart vid datautvinning. Efter omvandling kan tillämpas

datatransformation:

datatransformationsoperationer skulle bidra till framgången för gruvprocessen.

utjämning: Det hjälper till att ta bort ljud från data.

aggregering: Sammanfattnings-eller aggregeringsoperationer tillämpas på data. Dvs. de veckovisa försäljningsuppgifterna aggregeras för att beräkna den månatliga och årliga summan.

generalisering: i detta steg ersätts data på låg nivå med koncept på högre nivå med hjälp av koncepthierarkier. Till exempel ersätts staden av länet.

normalisering: normalisering utförs när attributdata skalas upp o skalas ner. Exempel: Data bör falla i intervallet -2,0 till 2,0 efter normalisering.

attribut konstruktion: dessa attribut är konstruerade och inkluderade den givna uppsättningen attribut som är användbara för datautvinning.

resultatet av denna process är en slutlig datamängd som kan användas i modellering.

modellering

i denna fas används matematiska modeller för att bestämma datamönster.

  • baserat på affärsmålen bör lämpliga modelleringstekniker väljas för den förberedda datasetet.
  • skapa ett scenario för att testa kontrollera modellens kvalitet och giltighet.
  • kör modellen på den förberedda datasetet.
  • Resultat bör bedömas av alla intressenter för att se till att modellen kan uppfylla data mining mål.

utvärdering:

i denna fas utvärderas identifierade mönster mot affärsmålen.

  • Resultat som genereras av data mining-modellen bör utvärderas mot affärsmålen.
  • att få affärsförståelse är en iterativ process. I själva verket, medan förståelse, nya affärskrav kan höjas på grund av datautvinning.
  • ett go-eller no-go-beslut fattas för att flytta modellen i driftsättningsfasen.

Deployment:

i driftsättningsfasen skickar du dina data mining upptäckter till vardagliga affärsverksamheter.

  • den kunskap eller information som upptäcks under data mining process bör göras lätt att förstå för icke-tekniska intressenter.
  • en detaljerad distributionsplan för frakt, underhåll och övervakning av data mining upptäckter skapas.
  • en slutlig projektrapport skapas med lärdomar och viktiga erfarenheter under projektet. Detta bidrar till att förbättra organisationens affärspolitik.

Data Mining tekniker

Data Mining tekniker
Data Mining tekniker

1.Klassificering:

denna analys används för att hämta viktig och relevant information om data och metadata. Denna data mining metod hjälper till att klassificera data i olika klasser.

2. Klustring:

klusteranalys är en Data mining teknik för att identifiera data som är som varandra. Denna process hjälper till att förstå skillnaderna och likheterna mellan data.

3. Regression:

regressionsanalys är data mining-metoden för att identifiera och analysera förhållandet mellan variabler. Det används för att identifiera sannolikheten för en specifik variabel, med tanke på närvaron av andra variabler.

4. Föreningsregler:

denna Data mining teknik hjälper till att hitta sambandet mellan två eller flera objekt. Det upptäcker ett dolt mönster i datamängden.

5. Yttre detektion:

denna typ av Data mining teknik avser observation av dataobjekt i datasetet som inte matchar ett förväntat mönster eller förväntat beteende. Denna teknik kan användas i en mängd olika domäner, såsom intrång, upptäckt, bedrägeri eller feldetektering etc. Yttre detektion kallas också Outlier analys eller Outlier mining.

6. Sekventiella mönster:

denna Data mining teknik hjälper till att upptäcka eller identifiera liknande mönster eller trender i transaktionsdata under viss period.

7. Förutsägelse:

Prediction har använt en kombination av de andra teknikerna för datautvinning som trender, sekventiella mönster, kluster, klassificering etc. Den analyserar tidigare händelser eller instanser i en rätt sekvens för att förutsäga en framtida händelse.

utmaningar för genomförandet av data mine:

  • skickliga experter behövs för att formulera data mining frågor.
  • Overfitting: på grund av liten storlek utbildning Databas, en modell kanske inte passar framtida stater.
  • data mining behöver stora databaser som ibland är svåra att hantera
  • affärsmetoder kan behöva ändras för att bestämma att använda den information som avslöjats.
  • Om datamängden inte är olika kanske resultaten av datautvinning inte är korrekta. Integrationsinformation som behövs från heterogena databaser och globala informationssystem kan vara komplex

data mining exempel:

nu i denna Data Mining kurs, låt oss lära oss om data mining med exempel:

exempel 1:

Tänk på en marknadschef för telekomtjänster som vill öka intäkterna för långväga tjänster. För hög ROI på hans försäljnings-och marknadsföringsinsatser är kundprofilering viktigt. Han har en stor DataPool med kundinformation som ålder, kön, inkomst, kredithistoria etc. Men det är omöjligt att bestämma egenskaper hos personer som föredrar långdistanssamtal med manuell analys. Med hjälp av data mining tekniker, han kan avslöja mönster mellan hög långväga samtal användare och deras egenskaper.

till exempel kan han lära sig att hans bästa kunder är gifta kvinnor mellan 45 och 54 år som tjänar mer än 80 000 dollar per år. Marknadsföringsinsatser kan riktas mot sådan demografisk.

exempel 2:

en bank vill söka nya sätt att öka intäkterna från sin kreditkortsverksamhet. De vill kontrollera om användningen skulle fördubblas om avgifterna halverades.

Bank har flera års rekord i genomsnittliga kreditkortsaldon, betalningsbelopp, kreditgränsanvändning och andra viktiga parametrar. De skapar en modell för att kontrollera effekterna av den föreslagna nya affärspolitiken. Dataresultaten visar att skära avgifterna i hälften för en målinriktad kundbas kan öka intäkterna med 10 miljoner dollar.

data mining Tools

Följande är 2 populära data mining Tools används i stor utsträckning inom industrin

r-språk:

r language är ett open source-verktyg för statistisk databehandling och grafik. R har ett brett utbud av statistiska, klassiska statistiska tester, tidsserieanalys, klassificering och grafiska tekniker. Det erbjuder effektiv datahantering och lagringsanläggning.

Läs mer här

Oracle Data Mining:

Oracle Data Mining känner populärt eftersom ODM är en modul i Oracle Advanced Analytics-databasen. Detta data mining verktyg tillåter dataanalytiker att generera detaljerade insikter och gör förutsägelser. Det hjälper till att förutsäga kundbeteende, utvecklar kundprofiler, identifierar korsförsäljningsmöjligheter.

Läs mer här

fördelar med Data Mining:

  • Data mining teknik hjälper företag att få kunskapsbaserad information.
  • data mining hjälper organisationer att göra lönsamma justeringar i drift och produktion.
  • data mining är en kostnadseffektiv och effektiv lösning jämfört med andra statistiska dataapplikationer.
  • data mining hjälper till med beslutsprocessen.
  • underlättar automatiserad förutsägelse av trender och beteenden samt automatiserad upptäckt av dolda mönster.
  • Det kan implementeras i nya system såväl som befintliga plattformar
  • Det är den snabba processen som gör det enkelt för användarna att analysera stor mängd data på kortare tid.

nackdelar med Data Mining

  • Det finns chanser att företag kan sälja användbar information om sina kunder till andra företag för pengar. Till exempel har American Express sålt kreditkortsköp av sina kunder till de andra företagen.
  • många Data mining analytics-programvara är svår att använda och kräver avancerad utbildning för att arbeta med.
  • olika data mining verktyg fungerar på olika sätt på grund av olika algoritmer som används i deras design. Därför är valet av korrekt data mining verktyg en mycket svår uppgift.
  • data mining tekniker är inte korrekta, och så kan det orsaka allvarliga konsekvenser under vissa förhållanden.

data mining Applications

Applications användning
Communications data mining tekniker används i kommunikationssektorn för att förutsäga kundbeteende för att erbjuda mycket riktade och relevanta kampanjer.
försäkring data mining hjälper försäkringsbolag att prissätta sina produkter lönsamma och främja nya erbjudanden till sina nya eller befintliga kunder.
utbildning data mining gynnar lärare att få tillgång till Studentdata, förutsäga prestationsnivåer och hitta studenter eller grupper av studenter som behöver extra uppmärksamhet. Till exempel studenter som är svaga i matematikämnet.
tillverkning med hjälp av data Mining tillverkare kan förutsäga slitage av produktionstillgångar. De kan förutse underhåll som hjälper dem att minska dem för att minimera driftstopp.
Banking data mining hjälper finanssektorn att få en bild av marknadsrisker och hantera regelefterlevnad. Det hjälper bankerna att identifiera sannolika defaulters att besluta om att utfärda kreditkort, lån etc.
Retail Data Mining tekniker hjälper detaljhandeln gallerior och livsmedelsbutiker identifiera och ordna mest säljbara objekt i de mest uppmärksamma positioner. Det hjälper butiksägare att komma med erbjudandet som uppmuntrar kunderna att öka sina utgifter.
tjänsteleverantörer tjänsteleverantörer som mobiltelefon-och verktygsindustrin använder datautvinning för att förutsäga orsakerna när en kund lämnar sitt företag. De analyserar faktureringsuppgifter, kundtjänstinteraktioner, klagomål till företaget för att tilldela varje kund en sannolikhetspoäng och erbjuder incitament.
e-handel e-handelswebbplatser använder Data Mining för att erbjuda korsförsäljning och uppförsäljning via sina webbplatser. Ett av de mest kända namnen är Amazon, som använder data mining tekniker för att få fler kunder till sin e-handel butik.
Super Markets Data Mining tillåter stormarknadens utvecklingsregler att förutsäga om deras kunder sannolikt skulle förvänta sig. Genom att utvärdera deras köpmönster kunde de hitta kvinnliga kunder som troligen är gravida. De kan börja rikta in produkter som babypulver, babybutik, blöjor och så vidare.
brottsutredning Data Mining hjälper brottsutredningsbyråer att distribuera polisens arbetskraft (var är ett brott mest sannolikt att hända och när?), vem man ska söka vid en gränsövergång etc.
bioinformatik Data Mining hjälper till att bryta biologiska data från massiva dataset samlade i biologi och medicin.

sammanfattning:

  • data mining definition: data Mining handlar om att förklara det förflutna och förutsäga framtiden via dataanalys.
  • data mining hjälper till att extrahera information från stora datamängder. Det är förfarandet för att bryta kunskap från data.
  • data mining process inkluderar affärsförståelse, Dataförståelse, Databeredning, modellering, utveckling, distribution.viktiga data mining tekniker är klassificering, kluster, Regression, Associeringsregler, yttre detektering, sekventiella mönster och förutsägelse
  • R-språk och Oracle Data mining är framstående data mining verktyg och tekniker.
  • Data mining teknik hjälper företag att få kunskapsbaserad information.
  • den största nackdelen med data mining är att många analysprogram är svåra att använda och kräver avancerad utbildning för att arbeta med.
  • data mining används i olika branscher som kommunikation, försäkring, utbildning, tillverkning, Bank, detaljhandel, tjänsteleverantörer, e-handel, stormarknader bioinformatik.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *