Articles

Dolování dat Kurz: Co je | Proces | Techniky A Příklady

Co je Data Mining?

dolování dat je proces hledání potenciálně užitečných vzorů z obrovských datových sad. Jedná se o multidisciplinární dovednost, která využívá strojové učení, statistiky a AI k získávání informací pro vyhodnocení pravděpodobnosti budoucích událostí. Poznatky získané z dolování dat se používají pro marketing, odhalování podvodů, vědecké objevy atd.

dolování dat je především o objevování skrytých, netušených a dříve neznámých, ale platných vztahů mezi daty. Dolování dat se také nazývá objev znalostí v datech (KDD), extrakce znalostí, analýza dat/vzorů, sběr informací atd.

v tomto tutoriálu pro dolování dat se naučíte základy dolování dat, jako je –

  • co je dolování dat?
  • Typy Dat
  • Data Mining Proces Implementace
  • Obchodní znalosti:
  • Data pochopení:
  • příprava Dat:
  • transformace Dat:
  • Modelování:
  • Techniky Dolování Dat
  • Výzvy Provádění Údaje Moje:
  • Data Mining Příklady:
  • Data Mining Nástroje
  • Přínosy Dolování Dat:
  • Nevýhody Data Mining
  • Data Mining Aplikace

Typy Dat

dolování Dat mohou být provedeny na následující typy dat

  • Relační databáze
  • Datové sklady
  • Pokročilé DB a úložiště informací
  • Objektově orientované a objektově-relační databáze
  • Transakční a Prostorových databází
  • Heterogenní a legacy databází
  • Multimédia a streaming databáze
  • Text databází
  • Text mining a Web mining

Data Mining Provádění Proces

Data Mining Proces Implementace
Data Mining Proces Implementace

Pojďme studovat Data Mining proces implementace v detailu

Obchodní porozumění:

V této fázi, podnikání a data-mining cíle jsou stanoveny.

  • nejprve musíte pochopit obchodní a klientské cíle. Musíte definovat, co váš klient chce (což mnohokrát ani oni sami neznají)
  • zhodnoťte aktuální scénář dolování dat. Faktor ve zdrojích, předpoklad, omezení, a další významné faktory do Vašeho hodnocení.
  • pomocí obchodních cílů a aktuálního scénáře definujte cíle dolování dat.
  • dobrý plán dolování dat je velmi podrobný a měl by být vyvinut pro dosažení obchodních i dolovacích cílů.

porozumění datům:

v této fázi se provádí kontrola zdravého rozumu na datech, aby se zkontrolovalo, zda jsou vhodná pro cíle dolování dat.

  • nejprve jsou data shromažďována z více zdrojů dat dostupných v Organizaci.
  • tyto zdroje dat mohou zahrnovat více databází, plochý filer nebo datové kostky. Existují problémy, jako je shoda objektů a integrace schématu, které mohou vzniknout během procesu integrace dat. Je to poměrně složitý a složitý proces, protože data z různých zdrojů se pravděpodobně snadno neshodují. Například tabulka a obsahuje entitu s názvem cust_no, zatímco jiná tabulka B obsahuje entitu s názvem cust-id.
  • proto je poměrně obtížné zajistit, aby oba tyto objekty odkazovaly na stejnou hodnotu nebo ne. Zde by měla být Metadata použita ke snížení chyb v procesu integrace dat.
  • dalším krokem je hledání vlastností získaných dat. Dobrým způsobem, jak prozkoumat data, je odpovědět na otázky dolování dat (rozhodnuté v obchodní fázi) pomocí nástrojů pro dotaz, reporting a vizualizaci.
  • na základě výsledků dotazu je třeba zjistit kvalitu dat. Chybějící údaje, pokud by měly být získány.

příprava dat:

v této fázi jsou data připravena k výrobě.

proces přípravy dat spotřebuje asi 90% času projektu.

data z různých zdrojů by měla být vybrána, vyčištěna, transformována, formátována, anonymizována a konstruována (v případě potřeby).

čištění dat je proces „čištění“ dat vyhlazením hlučných dat a vyplněním chybějících hodnot.

například u demografického profilu zákazníka chybí údaje o věku. Údaje jsou neúplné a měly by být vyplněny. V některých případech mohou existovat odlehlé hodnoty dat. Například věk má hodnotu 300. Data mohou být nekonzistentní. Například jméno zákazníka se v různých tabulkách liší.

operace transformace dat mění data tak, aby byla užitečná při dolování dat. Následující transformace může být použita

transformace dat:

operace transformace dat by přispěly k úspěchu procesu těžby.

vyhlazování: Pomáhá odstranit šum z dat.

agregace: na data se použijí souhrnné nebo agregační operace. Tj., týdenní údaje o prodeji jsou agregovány pro výpočet měsíčního a ročního součtu.

zobecnění: v tomto kroku jsou data nízké úrovně nahrazena koncepty vyšší úrovně pomocí hierarchií konceptů. Například město je nahrazeno krajem.

normalizace: normalizace se provádí, když jsou data atributu zvětšena o zmenšena. Příklad: Data by měla po normalizaci klesat v rozmezí -2,0 až 2,0.

konstrukce atributů: tyto atributy jsou konstruovány a zahrnuty danou sadu atributů užitečné pro dolování dat.

výsledkem tohoto procesu je konečná sada dat, kterou lze použít při modelování.

modelování

v této fázi se k určení datových vzorů používají matematické modely.

  • na základě obchodních cílů by měly být pro připravený datový soubor vybrány vhodné techniky modelování.
  • Vytvořte scénář pro testování zkontrolujte kvalitu a platnost modelu.
  • spusťte model na připraveném datovém souboru.
  • výsledky by měly být posouzeny všemi zúčastněnými stranami, aby se ujistil, že model může splnit cíle dolování dat.

hodnocení:

v této fázi jsou identifikované vzory hodnoceny podle obchodních cílů.

  • výsledky generované modelem dolování dat by měly být hodnoceny podle obchodních cílů.
  • získání obchodního porozumění je iterativní proces. Ve skutečnosti, při porozumění, nové obchodní požadavky mohou být zvýšeny kvůli dolování dat.
  • je přijato rozhodnutí go nebo no-go pro přesun modelu ve fázi nasazení.

nasazení:

ve fázi nasazení odesíláte své objevy dolování dat do každodenních obchodních operací.

  • znalosti nebo informace objevené během procesu dolování dat by měly být snadno srozumitelné pro netechnické zúčastněné strany.
  • je vytvořen podrobný plán nasazení pro přepravu, údržbu a monitorování objevů dolování dat.
  • závěrečná zpráva o projektu je vytvořena s poučením a klíčovými zkušenostmi během projektu. To pomáhá zlepšit obchodní politiku organizace.

Data Mining Techniky

Techniky Dolování Dat
Techniky Dolování Dat

1.Klasifikace:

tato analýza se používá k získání důležitých a relevantních informací o datech a metadatech. Tato metoda dolování dat pomáhá klasifikovat data v různých třídách.

2. Clustering:

Clustering analysis je technika dolování dat k identifikaci dat, která jsou si navzájem podobná. Tento proces pomáhá pochopit rozdíly a podobnosti mezi daty.

3. Regrese:

regresní analýza je metoda dolování dat pro identifikaci a analýzu vztahu mezi proměnnými. Používá se k identifikaci pravděpodobnosti konkrétní proměnné vzhledem k přítomnosti dalších proměnných.

4. Pravidla přidružení:

tato technika dolování dat pomáhá najít souvislost mezi dvěma nebo více položkami. Objevuje skrytý vzor v datové sadě.

5. Vnější detekce:

Tento typ techniky dolování dat se týká pozorování datových položek v datovém souboru, které neodpovídají očekávanému vzoru nebo očekávanému chování. Tato technika může být použita v různých doménách, jako je narušení, detekce, detekce podvodů nebo poruch atd. Vnější detekce se také nazývá odlehlá analýza nebo odlehlá těžba.

6. Sekvenční vzory:

tato technika dolování dat pomáhá objevovat nebo identifikovat podobné vzorce nebo trendy v transakčních datech za určité období.

7. Předpověď:

predikce použila kombinaci dalších technik dolování dat, jako jsou trendy, sekvenční vzory, shlukování, klasifikace atd. Analyzuje minulé události nebo instance ve správném pořadí pro předpovídání budoucí události.

výzvy implementace Data mine:

  • pro formulaci dotazů na dolování dat jsou zapotřebí kvalifikovaní odborníci.
  • Overfitting: vzhledem k malé velikosti tréninkové databáze nemusí model odpovídat budoucím stavům.
  • Data mining potřebuje velké databáze, které jsou někdy obtížně spravovatelné
  • obchodní praktiky může být nutné upravit, aby se určilo použití odkrytých informací.
  • pokud soubor dat není různorodý, nemusí být výsledky dolování dat přesné.
  • Integrace potřebné informace z heterogenních databází a globální informační systémy by mohly být složité

Data mining Příklady:

Nyní, v této Dolování Dat kurzu, pojďme se dozvědět se o dolování Dat s příklady:

Příklad 1:

zvažte marketingovou vedoucí telekomunikačních služeb, která chce zvýšit příjmy z dálkových služeb. Pro vysokou návratnost investic na jeho prodejní a marketingové úsilí profilování zákazníků je důležité. Má obrovský datový fond informací o zákaznících, jako je věk, Rod,příjem, úvěrová historie, atd. Ale jeho nemožné určit vlastnosti lidí, kteří dávají přednost dálkové hovory s manuální analýzou. Pomocí technik dolování dat může odhalit vzorce mezi uživateli volání na velké vzdálenosti a jejich charakteristikami.

například by se mohl dozvědět, že jeho nejlepšími zákazníky jsou vdané ženy ve věku od 45 do 54 let, které vydělávají více než 80 000 dolarů ročně. Marketingové úsilí může být zaměřeno na takové demografické.

příklad 2:

banka chce hledat nové způsoby, jak zvýšit příjmy z operací s kreditními kartami. Chtějí zkontrolovat, zda by se využití zdvojnásobilo, kdyby se poplatky snížily na polovinu.

banka má několikaleté záznamy o průměrných zůstatcích kreditních karet, částkách plateb, využití úvěrového limitu a dalších klíčových parametrech. Vytvářejí model pro kontrolu dopadu navrhované nové obchodní politiky. Výsledky dat ukazují, že snížení poplatků na polovinu pro cílenou zákaznickou základnu by mohlo zvýšit příjmy o 10 milionů dolarů.

Data Mining Nástroje

Následující 2 populární Data Mining Nástroje, široce používané v Průmyslu,

R-jazyk:

R jazyk je open source nástroj pro statistické výpočty a grafiku. R má širokou škálu statistických, klasických statistických testů, analýzy časových řad, klasifikace a grafických technik. Nabízí efektivní předávání dat a úložiště.

Více se dozvíte zde

Oracle Data Mining:

Oracle Data Mining populárně známý jako ODM je modul databáze Oracle Advanced Analytics. Tento nástroj pro dolování dat umožňuje analytikům dat generovat podrobné informace a provádět předpovědi. Pomáhá předvídat chování zákazníků, rozvíjí profily zákazníků, identifikuje příležitosti křížového prodeje.

Další informace zde

výhody dolování dat:

  • technika dolování dat pomáhá společnostem získat informace založené na znalostech.
  • dolování dat pomáhá organizacím provádět ziskové úpravy v provozu a výrobě.
  • dolování dat je nákladově efektivní a efektivní řešení ve srovnání s jinými statistickými datovými aplikacemi.
  • dolování dat pomáhá s rozhodovacím procesem.
  • usnadňuje automatizovanou predikci trendů a chování, stejně jako automatické objevování skrytých vzorů.
  • to může být realizován v nových systémech, stejně jako stávající platformy
  • je to rychlý proces, který usnadňuje uživatelům analyzovat obrovské množství dat v kratším čase.

Nevýhody Dolování Dat

  • Existuje šance, že společnosti mohou prodávat užitečné informace svých zákazníků jiným společnostem za peníze. Například American Express prodal nákupy kreditních karet svých zákazníků ostatním společnostem.
  • mnoho dat mining analytický software je obtížné provozovat a vyžaduje předem školení pracovat na.
  • různé nástroje pro dolování dat pracují různými způsoby díky různým algoritmům používaným při jejich návrhu. Výběr správného nástroje pro dolování dat je proto velmi obtížný úkol.
  • techniky dolování dat nejsou přesné, a proto mohou za určitých podmínek způsobit vážné následky.

Data Mining Aplikace

Aplikace Použití
Komunikace Data mining techniky jsou používány v komunikaci sektoru předvídat chování zákazníků nabídnout vysoce cílené a relevantní kampaně.
pojištění dolování dat pomáhá pojišťovnám cenit své produkty ziskově a propagovat nové nabídky svým novým nebo stávajícím zákazníkům.
vzdělávání Data mining výhody pedagogům přístup k datům studentů, předpovídat úrovně úspěchu a najít studenty nebo skupiny studentů, které potřebují zvláštní pozornost. Například studenti, kteří jsou slabí v předmětu matematika.
výroba s pomocí Data Mining výrobci mohou předvídat opotřebení výrobních aktiv. Mohou předvídat údržbu, která jim pomáhá snížit je, aby se minimalizovaly prostoje.
bankovnictví dolování dat pomáhá finančnímu sektoru získat přehled o tržních rizicích a řídit dodržování předpisů. Pomáhá bankám identifikovat pravděpodobné neplatiče, aby se rozhodli, zda vydají kreditní karty, půjčky atd.
Maloobchodní Data Mining technik pomoci maloobchodní nákupní střediska a obchody s potravinami identifikovat a uspořádat nejvíce prodejné položek v nejvíce pozorný pozice. Pomáhá majitelům obchodů přijít s nabídkou, která povzbuzuje zákazníky ke zvýšení jejich výdajů.
Poskytovatelé Služeb poskytovatelé Služeb, jako je mobilní telefon a utility odvětví použití Dolování Dat předvídat důvody, když zákazník opustí jejich společnost. Oni analyzovat fakturační údaje, zákaznický servis interakce, stížnosti společnosti přiřadit každému zákazníkovi pravděpodobnost skóre a nabízí pobídky.
E-Commerce E-commerce webové stránky používají dolování dat nabízet cross-sells a up-sells prostřednictvím svých webových stránek. Jedním z nejznámějších jmen je Amazon, kteří používají techniky dolování dat k získání více zákazníků do svého elektronického obchodu.
super trhy dolování dat umožňuje pravidlům vývojářů supermarketu předpovědět, zda jejich zákazníci pravděpodobně očekávají. Vyhodnocením jejich nákupního vzoru, mohli najít zákaznice, které jsou s největší pravděpodobností těhotné. Mohou začít zacílit na produkty, jako je dětský prášek, dětský obchod, plenky a tak dále.
vyšetřování kriminality dolování dat pomáhá agenturám pro vyšetřování trestné činnosti nasadit policejní pracovní sílu(kde se s největší pravděpodobností stane trestný čin a kdy?), koho hledat na hraničním přechodu apod.
bioinformatika dolování dat pomáhá těžit biologická data z masivních datových souborů shromážděných v biologii a medicíně.

souhrn:

  • definice dolování dat: dolování dat je především o vysvětlení minulosti a předpovídání budoucnosti pomocí analýzy dat.
  • dolování dat pomáhá extrahovat informace z obrovských sad dat. Jedná se o postup těžby znalostí z dat.
  • proces dolování dat zahrnuje obchodní porozumění, porozumění datům, přípravu dat, modelování, vývoj, nasazení.
  • Důležitá Data mining techniky jsou Klasifikace, clustering, Regrese, Asociační pravidla, Zevní detekcí, Sekvenční Vzory, a predikce
  • R-jazyk a Oracle Data mining jsou prominentní dolování dat, nástroje a techniky.
  • technika dolování dat pomáhá společnostem získat informace založené na znalostech.
  • hlavní nevýhodou dolování dat je, že mnoho analytics software je obtížné pracovat, a vyžaduje předem přípravu pro práci na.
  • dolování dat se používá v různých průmyslových odvětvích, jako je komunikace, pojišťovnictví, vzdělávání, výroba, bankovnictví, Maloobchod, poskytovatelé služeb, elektronický obchod, supermarkety bioinformatika.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *