Articles

Tiedonlouhinnan Tutorial: What is | Process/Techniques & Examples

What is Data Mining?

tiedonlouhinta on prosessi, jossa etsitään mahdollisesti hyödyllisiä kuvioita valtavista tietojoukoista. Se on monitieteinen taito, joka käyttää koneoppimista, tilastoja ja tekoälyä tiedon poimimiseen tulevien tapahtumien todennäköisyyden arvioimiseksi. Tiedonlouhinnasta saatuja oivalluksia käytetään markkinointiin, petosten havaitsemiseen, tieteelliseen löytämiseen jne.

Tiedonlouhinnassa on kyse piilotettujen, aavistamattomien ja aiemmin tuntemattomien mutta pätevien suhteiden löytämisestä datan joukosta. Tiedon louhinta kutsutaan myös Knowledge Discovery Data (KDD), Knowledge extraction, data/pattern analysis, information harvesting, jne.

tässä tiedonlouhinnan opetusohjelmassa opit tiedonlouhinnan perusteet kuten –

  • mitä on tiedonlouhinta?
  • Datatyypit
  • tiedonlouhinnan toteutusprosessi
  • Business understanding:
  • tiedon ymmärtäminen:
  • Data preparation:
  • Data transformation:
  • Modelling:
  • Data Mining Techniques
  • challenges of Implementation of Data Mine:
  • Data Mining Examples:
  • tiedonlouhinnan työkalut
  • tiedonlouhinnan hyödyt:
  • tiedonlouhinnan haitat
  • Tiedonlouhintasovellukset

tietomuodot

tiedonlouhinta voidaan suorittaa seuraaville datatyypeille

  • tietovarastot
  • kehittyneet DB-ja oliorelaatiotietokannat
  • kauppa-ja paikkatietokannat
  • heterogeeniset ja vanhat tietokannat
  • multimedia-ja suoratoistotietokanta
  • tekstitietokannat
  • tekstinlouhinta ja verkkolouhinta

tiedonlouhinnan toteutus Prosessi

tiedonlouhinnan toteutusprosessi
tiedonlouhinnan toteutusprosessi

tutkitaan tiedonlouhinnan toteutusprosessia yksityiskohtaisesti

business understanding:

tässä vaiheessa määritellään liiketoiminnan ja tiedonlouhinnan tavoitteet.

  • Ensin pitää ymmärtää liiketoiminnan ja asiakkaan tavoitteet. Sinun täytyy määritellä, mitä asiakkaasi haluaa (jota monesti hekään eivät itse tiedä)
  • arvioi tämänhetkinen tiedonhankintaskenaario. Huomioi resurssit, oletus, rajoitteet ja muut merkittävät tekijät arvioosi.
  • määrittele tiedonhankintatavoitteesi liiketoiminnan tavoitteiden ja nykyisen skenaarion avulla.
  • hyvä tiedonlouhintasuunnitelma on hyvin yksityiskohtainen, ja sitä tulisi kehittää sekä liiketoiminnan että tiedonlouhinnan tavoitteiden saavuttamiseksi.

tietojen ymmärtäminen:

tässä vaiheessa tehdään tietojen mielenterveystarkastus sen selvittämiseksi, soveltuuko se tiedonlouhintatavoitteisiin.

  • ensin tiedot kerätään useista organisaatiossa käytettävissä olevista tietolähteistä.
  • näihin tietolähteisiin voi kuulua useita tietokantoja, litteitä filereitä tai datakuutioita. On olemassa kysymyksiä, kuten objektien matching ja skeema integraatio, joka voi syntyä aikana Data Integration prosessi. Se on melko monimutkainen ja hankala prosessi, koska eri lähteistä saadut tiedot eivät todennäköisesti täsmää helposti. Esimerkiksi taulukossa A on yhteisö nimeltä cust_no, kun taas toisessa taulukossa B on yhteisö nimeltä cust-id.
  • siksi on melko vaikea varmistaa, viittaavatko molemmat annetut objektit samaan arvoon vai eivät. Tässä metatietoja tulisi käyttää vähentämään virheitä tiedon integraatioprosessissa.
  • seuraavaksi etsitään hankitun tiedon ominaisuuksia. Hyvä tapa tutkia dataa on vastata (liiketoimintavaiheessa päätettyihin) tiedonlouhintakysymyksiin kyselyn, raportoinnin ja visualisoinnin avulla.
  • kyselytulosten perusteella on syytä varmistaa tiedon laatu. Puuttuvat tiedot olisi hankittava.

Tiedonvalmistus:

tässä vaiheessa tieto saadaan tuotantovalmiiksi.

tiedonvalmisteluprosessi kuluttaa noin 90% projektin ajasta.

eri lähteistä peräisin olevat tiedot on valittava, puhdistettava, muunnettava, muotoiltava, anonymisoitava ja rakennettava (tarvittaessa).

tietojen puhdistus on prosessi, jossa data ”puhdistetaan” tasoittamalla meluisia tietoja ja täyttämällä puuttuvat arvot.

esimerkiksi asiakasdemografiaprofiilista ikätiedot puuttuvat. Tiedot ovat puutteellisia, ja ne tulee täyttää. Joissakin tapauksissa voi olla poikkeavia tietoja. Esimerkiksi iän arvo on 300. Tiedot voivat olla epäjohdonmukaisia. Esimerkiksi asiakkaan nimi on eri taulukoissa.

tiedon muunnosoperaatiot muuttavat tietoa niin, että siitä on hyötyä tiedon louhinnassa. Seuraavia muunnoksia voidaan soveltaa

tiedon muunnos:

tiedon muunnostoimet edistäisivät kaivosprosessin onnistumista.

tasoitus: Se auttaa poistamaan melua tiedoista.

aggregointi: tietoihin sovelletaan Yhteenveto-tai aggregointioperaatioita. Viikoittaiset myyntitiedot lasketaan yhteen kuukausittaisen ja vuosittaisen kokonaissumman laskemiseksi.

yleistys: tässä vaiheessa matalan tason tieto korvataan korkeamman tason käsitteillä käsittehierarkioiden avulla. Esimerkiksi kaupunki korvataan läänillä.

normalisointi: normalisointi suoritetaan, kun attribuuttitiedot skaalataan ylös o skaalataan alaspäin. Esimerkki: tietojen pitäisi kuulua alueelle -2.0-2.0 normalisoinnin jälkeen.

attribuutin rakenne: nämä attribuutit ovat konstruoituja, ja ne sisältävät annetut attribuutit, jotka ovat hyödyllisiä tiedonlouhinnassa.

tämän prosessin tuloksena saadaan lopullinen tietojoukko, jota voidaan käyttää mallintamisessa.

mallintaminen

tässä vaiheessa datakuvioiden määrittämiseen käytetään matemaattisia malleja.

  • valmisteltuun aineistoon tulisi valita liiketoiminnan tavoitteiden perusteella sopivat mallinnustekniikat.
  • luo skenaario, jolla testataan mallin laadun ja kelpoisuuden tarkistamista.
  • aja malli valmistellusta aineistosta.
  • kaikkien sidosryhmien tulisi arvioida tuloksia varmistaakseen, että malli voi täyttää tiedonlouhintatavoitteet.

arviointi:

tässä vaiheessa tunnistettuja malleja arvioidaan liiketoiminnan tavoitteiden mukaisesti.

  • tiedonlouhintamallin tuottamia tuloksia tulisi arvioida liiketoiminnan tavoitteita vasten.
  • liiketoiminnan ymmärtäminen on iteratiivinen prosessi. Itse asiassa, vaikka ymmärrystä, uusia liiketoiminnan vaatimuksia voidaan nostaa, koska tiedon louhinta.
  • tehdään joko go tai no-go-päätös mallin siirtämisestä käyttöönottovaiheessa.

Deployment:

käyttöönottovaiheessa lähetät tiedonlouhintalöydöt jokapäiväiseen liiketoimintaan.

  • tiedonlouhintaprosessin aikana löydetyt tiedot olisi tehtävä helpoiksi ei-teknisille sidosryhmille.
  • laaditaan yksityiskohtainen käyttöönottosuunnitelma, joka koskee tiedonlouhintalöytöjen merenkulkua, ylläpitoa ja seurantaa.
  • luodaan projektin loppuraportti, joka sisältää projektin aikana saadut kokemukset ja Keskeiset kokemukset. Tämä auttaa parantamaan organisaation liiketoimintapolitiikkaa.

Tiedonlouhintatekniikat

Tiedonlouhintatekniikat
Tiedonlouhintatekniikat

1.Luokittelu:

tämän analyysin avulla haetaan tärkeitä ja merkityksellisiä tietoja datasta ja metatiedoista. Tämä tiedonlouhintamenetelmä auttaa luokittelemaan dataa eri luokkiin.

2. Ryhmittely:

Ryhmittelyanalyysi on tiedonlouhintatekniikka, jolla tunnistetaan toistensa kaltaisia tietoja. Tämä prosessi auttaa ymmärtämään tietojen eroja ja yhtäläisyyksiä.

3. Regressio:

regressioanalyysi on tiedonlouhintamenetelmä muuttujien välisen suhteen tunnistamiseksi ja analysoimiseksi. Sitä käytetään tietyn muuttujan todennäköisyyden tunnistamiseen, kun otetaan huomioon muiden muuttujien olemassaolo.

4. Assosiaatiosäännöt:

tämä tiedonlouhintatekniikka auttaa löytämään assosiaation kahden tai useamman kohteen välillä. Se löytää piilotetun kuvion datajoukosta.

5. Ulompi tunnistus:

tällä tiedonlouhintatekniikalla tarkoitetaan sellaisten aineistossa olevien tietoerien havainnointia, jotka eivät vastaa odotettua kaavaa tai oletettua käyttäytymistä. Tätä tekniikkaa voidaan käyttää eri aloilla, kuten tunkeutuminen, havaitseminen, petos tai vian havaitseminen, jne. Outer detection kutsutaan myös Outlier analyysi tai Outlier mining.

6. Juoksevat kuviot:

tämä tiedonlouhintatekniikka auttaa löytämään tai tunnistamaan samanlaisia tapahtumatietojen malleja tai suuntauksia tiettynä ajanjaksona.

7. Ennuste:

ennustamisessa on käytetty muiden tiedonlouhintatekniikoiden yhdistelmää, kuten trendejä, peräkkäisiä kuvioita, ryhmittelyä, luokittelua jne. Se analysoi menneitä tapahtumia tai instansseja oikeassa järjestyksessä tulevan tapahtuman ennustamiseksi.

Datakaivoksen toteuttamisen haasteet:

  • tarvitaan taitavia asiantuntijoita tiedonlouhintakyselyiden muotoiluun.
  • ylilyönti: pienen koon harjoitustietokannan vuoksi malli ei välttämättä sovi tuleville valtioille.
  • tiedonlouhinta tarvitsee suuria tietokantoja, joita on joskus vaikea hallita
  • liiketoimintakäytäntöjä voidaan joutua muuttamaan, jotta paljastetun tiedon käyttö voidaan määrittää.
  • Jos tietokokonaisuus ei ole monipuolinen, tiedonlouhinnan tulokset eivät välttämättä ole tarkkoja.
  • integraatiotieto, jota tarvitaan epäyhtenäisistä tietokannoista ja globaaleista tietojärjestelmistä, voi olla monimutkaista

tiedonlouhinta esimerkkejä:

nyt tällä tiedonlouhinnan kurssilla opetellaan tiedonlouhintaa esimerkein:

Esimerkki 1:

harkitse telepalveluiden markkinointipäällikköä, joka haluaa kasvattaa kaukopalveluiden tuloja. Korkea ROI hänen myynti-ja markkinointiponnisteluja asiakas profilointi on tärkeää. Hänellä on laaja tietopotti asiakastietoja, kuten ikä, sukupuoli,tulot, luottotiedot, jne. Mutta sen mahdotonta määrittää ominaisuuksia ihmisiä, jotka haluavat pitkän matkan puhelut manuaalinen analyysi. Käyttämällä tiedonlouhintatekniikoita, hän voi paljastaa malleja korkean kaukopuhelun käyttäjien ja heidän ominaisuuksiensa välillä.

hän saattaa esimerkiksi saada tietää, että hänen parhaat asiakkaansa ovat 45-54-vuotiaita naimisissa olevia naisia, jotka tienaavat yli 80 000 dollaria vuodessa. Markkinointiponnistelut voidaan kohdentaa tällaiseen demografiaan.

Esimerkki 2:

pankki haluaa etsiä uusia tapoja kasvattaa luottokorttitoiminnoistaan saatavia tuloja. He haluavat tarkistaa, kaksinkertaistuisiko käyttö, jos maksut puolitettaisiin.

pankilla on useiden vuosien tiedot keskimääräisistä luottokorttisaldoista, maksumääristä, luottorajan käytöstä ja muista keskeisistä parametreista. Ne luovat mallin, jolla tarkistetaan ehdotetun uuden yrityspolitiikan vaikutuksia. Datatulokset osoittavat, että palkkioiden puolittaminen tavoitellusta asiakaskunnasta voisi lisätä tuloja 10 miljoonalla dollarilla.

Tiedonlouhintatyökalut

seuraavat 2 suosittua Tiedonlouhintatyökalua, joita käytetään laajasti teollisuudessa

r-kieli:

r-kieli on avoimen lähdekoodin työkalu tilastolliseen laskentaan ja grafiikkaan. R: llä on laaja kirjo erilaisia tilastollisia, klassisia tilastollisia testejä, aikasarja-analyysejä, luokitteluja ja graafisia tekniikoita. Se tarjoaa tehokkaan tietojen käsittelyn ja tallennustilaa.

Lue lisää täältä

Oracle Data Mining:

Oracle Data Mining tunnetaan yleisesti nimellä ODM on Oracle Advanced Analytics-tietokannan moduuli. Tämän Tiedonlouhintatyökalun avulla data-analyytikot voivat luoda yksityiskohtaisia tietoja ja tehdä ennusteita. Se auttaa ennustamaan asiakaskäyttäytymistä, kehittää asiakasprofiileja, tunnistaa ristiinmyyntimahdollisuuksia.

Lue lisää täältä

tiedonlouhinnan hyödyt:

  • Tiedonlouhintatekniikka auttaa yrityksiä saamaan tietoon perustuvaa tietoa.
  • tiedonlouhinta auttaa organisaatioita tekemään toiminnan ja tuotannon kannattavia säätöjä.
  • tiedonlouhinta on muihin tilastotietosovelluksiin verrattuna kustannustehokas ja tehokas ratkaisu.
  • tiedonlouhinta auttaa päätöksenteossa.
  • helpottaa trendien ja käyttäytymisen automaattista ennustamista sekä piilotettujen kaavojen automaattista löytämistä.
  • se voidaan toteuttaa uusissa järjestelmissä sekä nykyisissä alustoissa
  • se on nopea prosessi, jonka ansiosta käyttäjien on helppo analysoida valtava määrä dataa lyhyemmässä ajassa.

tiedonlouhinnan haitat

  • on mahdollista, että yritykset saattavat myydä asiakkaidensa hyödyllistä tietoa muille yrityksille rahaa vastaan. Esimerkiksi American Express on myynyt asiakkaidensa luottokorttiostoksia muille yhtiöille.
  • monet tiedonlouhinnan analytiikkaohjelmistot ovat hankalia käyttää, ja niiden työstäminen vaatii etukäteiskoulutusta.
  • erilaiset tiedonlouhintatyökalut toimivat eri tavoin johtuen niiden suunnittelussa käytetyistä erilaisista algoritmeista. Siksi oikean tiedon louhinta työkalu valinta on erittäin vaikea tehtävä.
  • tiedonlouhintatekniikat eivät ole tarkkoja, joten se voi tietyissä olosuhteissa aiheuttaa vakavia seurauksia.

Tiedonlouhintasovelluksia

Super Markets

Sovellukset käyttö
viestintä tiedonlouhintatekniikoita käytetään tietoliikennesektorilla ennustamaan asiakaskäyttäytymistä tarjoamaan erittäin kohdennettuja ja relevantteja kampanjoita.
vakuutus tiedonlouhinta auttaa vakuutusyhtiöitä hinnoittelemaan tuotteensa kannattaviksi ja markkinoimaan uusia tarjouksia uusille tai olemassa oleville asiakkailleen.
koulutus tiedonlouhinta hyödyttää kouluttajia pääsemään käsiksi opiskelijatietoihin, ennustamaan saavutustasoja ja löytämään opiskelijoita tai opiskelijaryhmiä, jotka tarvitsevat erityistä huomiota. Esimerkiksi oppilaat, jotka ovat heikkoja matematiikan aineessa.
valmistus tiedonlouhinnan valmistajien avulla voidaan ennustaa tuotanto-omaisuuden kulumista. He voivat ennakoida huoltoa, joka auttaa heitä vähentämään niitä minimoimaan seisokit.
pankkitoiminta tiedonlouhinta auttaa rahoitusalaa saamaan käsityksen markkinariskeistä ja hallitsemaan sääntelyn noudattamista. Se auttaa pankkeja tunnistamaan todennäköiset maksukyvyttömät päättääkseen, myöntävätkö ne luottokortteja, lainoja jne.
vähittäiskauppa Tiedonlouhintatekniikat auttavat kauppakeskuksia ja päivittäistavarakauppoja tunnistamaan ja järjestämään useimmat myytävät tavarat tarkkaavaisimpiin asemiin. Se auttaa kauppiaita keksimään tarjouksen, joka kannustaa asiakkaita lisäämään menoja.
palveluntarjoajat palveluntarjoajat, kuten matkapuhelin-ja yleishyödylliset toimialat, käyttävät tiedonlouhintaa ennustaakseen syitä, miksi asiakas jättää yrityksensä. He analysoivat laskutustietoja, asiakaspalvelun vuorovaikutusta, valituksia tehty yhtiö antaa jokaiselle asiakkaalle todennäköisyyspisteen ja tarjoaa kannustimia.
E-Commerce E-commerce-verkkosivustot käyttävät tiedonhankintaa tarjotakseen ristiinmyyntiä ja up-selliä verkkosivujensa kautta. Yksi tunnetuimmista nimistä on Amazon, joka käyttää Tiedonlouhintatekniikoita saadakseen lisää asiakkaita verkkokauppaansa.
tiedonlouhinta mahdollistaa supermarkettien kehittymissääntöjen avulla ennustamaan, osaavatko niiden ostajat odottaa. Arvioimalla niiden osto kuvio, he voisivat löytää nainen asiakkaita, jotka ovat todennäköisesti raskaana. He voivat alkaa kohdistaa tuotteita, kuten vauvan jauhe, vauva shop, vaipat ja niin edelleen.
rikostutkinta tiedonhankinta auttaa rikostutkintavirastoja lähettämään poliisin työvoimaa (missä rikos todennäköisimmin tapahtuu ja milloin?), ketä etsiä rajanylityspaikalla jne.
bioinformatiikka tiedonlouhinta auttaa louhimaan biologista tietoa biologian ja lääketieteen massiivisista aineistoista.

Yhteenveto:

  • tiedonlouhinnan määritelmä: Tiedonlouhinnassa on kyse menneisyyden selittämisestä ja tulevaisuuden ennustamisesta Data-analyysin avulla.
  • tiedonlouhinta auttaa poimimaan tietoa valtavista datakokonaisuuksista. Se on menettely, jossa kaivetaan tietoa datasta.
  • Tiedonlouhintaprosessi sisältää liiketoiminnan ymmärtämisen, tiedon ymmärtämisen, tiedon valmistelun, mallintamisen, evoluution, käyttöönoton.
  • tärkeitä Tiedonlouhintatekniikoita ovat luokittelu, ryhmittely, regressio, Assosiaatiosäännöt, Ulkoilmatunnistus, jaksottaiset kuviot ja ennustaminen
  • R-kieli ja Oracle-tiedonlouhinta ovat merkittäviä tiedonlouhintatyökaluja ja-tekniikoita.
  • Tiedonlouhintatekniikka auttaa yrityksiä saamaan tietoon perustuvaa tietoa.
  • tiedonlouhinnan suurin haittapuoli on se, että monien analytiikkaohjelmistojen käyttö on vaikeaa ja niiden työstäminen vaatii etukäteiskoulutusta.
  • tiedonlouhintaa käytetään monilla eri toimialoilla, kuten viestintä, vakuutus, koulutus, valmistus, Pankki, vähittäiskauppa, palveluntarjoajat, verkkokauppa, supermarketit bioinformatiikka.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *