Adatbányászat bemutató: mi / folyamat / technikák & példák
mi az adatbányászat?
az adatbányászat egy olyan folyamat, amely potenciálisan hasznos mintákat talál a hatalmas adatkészletekből. Ez egy multidiszciplináris készség, amely gépi tanulást, statisztikákat és AI-t használ az információk kinyerésére a jövőbeli események valószínűségének értékelésére. Az adatbányászatból származó betekintést marketingre, csalásérzékelésre, tudományos felfedezésre stb.
az adatbányászat az adatok között Rejtett, nem várt, korábban ismeretlen, mégis érvényes kapcsolatok felfedezéséről szól. Adatbányászat is nevezik tudás felfedezés adatok (KDD), tudás kitermelése, adatok / minta elemzés, információ betakarítás, stb ..
ebben az adatbányászati bemutatóban megtudhatja az adatbányászat alapjait, mint például –
- mi az adatbányászat?
- adattípusok
- adatbányászati végrehajtási folyamat
- üzleti megértés:
- adatmegértés:
- Adatok előkészítése:
- Adatok átalakulás:
- Modellezési:
- adatbányászati Technikák
- Kihívások Végrehajtásának Adatok az Enyém:
- adatbányászat Példák:
- adatbányászati Eszközök
- Előnyeit, adatbányászat:
- Hátrányai adatbányászat
- adatbányászati Alkalmazások
Típusú Adatok
adatbányászat lehet végezni a következő típusú adatokat,
- Relációs adatbázisok
- adattárházak
- Speciális DB, valamint az információs tárolókban
- Objektum-orientált, illetve az objektum-relációs adatbázisok
- a Tranzakciós, illetve a Térbeli adatbázisok
- Heterogén, illetve a legacy adatbázisok
- Multimédia streaming adatbázis
- Szöveges adatbázisok
- Szöveg bányászat, Web bányászati
adatbányászat Végrehajtása Folyamat
részletesen tanulmányozzuk az adatbányászati végrehajtási folyamatot
üzleti megértés:
ebben a szakaszban üzleti és adatbányászati célokat hoznak létre.
- először is meg kell értened az üzleti és ügyfél célokat. Meg kell határoznia, hogy mit akar az ügyfél (amely sokszor még nem ismerik magukat)
- számba veszi az aktuális adatbányászati forgatókönyvet. Tényező a források, feltételezés, korlátok, és egyéb jelentős tényezők az értékelés.
- üzleti célok és aktuális forgatókönyv segítségével határozza meg adatbányászati céljait.
- egy jó adatbányászati terv nagyon részletes, és fejleszteni kell mind az üzleti, mind az adatbányászati célok elérése érdekében.
adatmegértés:
ebben a szakaszban az adatok józansági ellenőrzését végezzük annak ellenőrzésére, hogy megfelelő-e az adatbányászati célokhoz.
- először az adatokat a szervezetben rendelkezésre álló több adatforrásból gyűjtik.
- ezek az adatforrások több adatbázist, lapos filert vagy adatkockát is tartalmazhatnak. Vannak olyan problémák, mint az objektummegfelelés vagy a sémaintegráció, amelyek az adatintegrációs folyamat során felmerülhetnek. Ez egy meglehetősen bonyolult és trükkös folyamat, mivel a különböző forrásokból származó adatok valószínűleg nem felelnek meg könnyen. Például az a táblázat cust_no nevű entitást tartalmaz, míg egy másik B táblázat cust-id nevű entitást tartalmaz.
- ezért meglehetősen nehéz biztosítani, hogy mindkét adott objektum ugyanarra az értékre utaljon, vagy sem. Itt metaadatokat kell használni az adatintegrációs folyamat hibáinak csökkentésére.
- ezután a lépés a megszerzett adatok tulajdonságainak keresése. Az adatok feltárásának jó módja az adatbányászati kérdések megválaszolása (üzleti fázisban) a lekérdezés, jelentéstétel, valamint vizualizációs eszközök segítségével.
- a lekérdezés eredményei alapján meg kell állapítani az adatminőséget. Hiányzó adatok, ha vannak ilyenek.
adat előkészítés:
ebben a fázisban az adatok készen állnak a termelésre.
az adatelőkészítési folyamat a projekt időtartamának mintegy 90% – át fogyasztja.
a különböző forrásokból származó adatokat (ha szükséges) ki kell választani, tisztítani, átalakítani, formázni, anonimizálni és felépíteni.
az adattisztítás az adatok “megtisztításának” folyamata a zajos adatok simításával és a hiányzó értékek kitöltésével.
például egy ügyfél demográfiai profilja esetében hiányoznak az életkor adatai. Az adatok hiányosak, azokat ki kell tölteni. Egyes esetekben előfordulhat, hogy az adatok kiugróak. Például az életkor értéke 300. Az adatok ellentmondásosak lehetnek. Például az ügyfél neve különböző táblázatokban különbözik.
az adatátalakítási műveletek megváltoztatják az adatokat, hogy hasznosak legyenek az adatbányászatban. Következő transzformáció lehet alkalmazni
data transformation:
Data transformation operations would contribute towards the success of the mining process.
: Segít eltávolítani a zajt az adatokból.
aggregáció: összefoglaló vagy aggregációs műveletek kerülnek alkalmazásra az adatokra. A heti értékesítési adatokat összesítve számoljuk ki a havi és éves összértéket.
általánosítás: ebben a lépésben az alacsony szintű adatokat magasabb szintű fogalmak váltják fel a koncepció hierarchiák segítségével. Például a várost a megye váltja fel.
normalizálás: az Attribútumadatok átméretezésekor végrehajtott normalizálás o méretezve. Példa: az adatoknak a normalizálás után -2,0-2,0 tartományba kell esniük.
attribútum felépítése: ezek az attribútumok az adatbányászat számára hasznos attribútumok halmazát tartalmazzák.
ennek a folyamatnak az eredménye egy végleges adathalmaz, amely a modellezésben használható.
modellezés
ebben a fázisban matematikai modelleket használnak az adatminták meghatározására.
- az üzleti célok alapján megfelelő modellezési technikákat kell kiválasztani az elkészített adatkészlethez.
- hozzon létre egy forgatókönyvet a modell minőségének és érvényességének ellenőrzésére.
- futtassa a modellt az elkészített adatkészleten.
- az eredményeket minden érdekelt félnek értékelnie kell annak biztosítása érdekében, hogy a modell megfeleljen az adatbányászati céloknak.
Értékelés:
ebben a szakaszban az azonosított mintákat az üzleti célok alapján értékelik.
- az adatbányászati modell által generált eredményeket az üzleti célok alapján kell értékelni.
- az üzleti megértés megszerzése iteratív folyamat. Valójában, míg a megértés, új üzleti követelmények emelhetők, mert az adatbányászat.
- go vagy no-go döntés születik a modell áthelyezéséről a telepítési szakaszban.
telepítés:
a telepítési szakaszban az adatbányászati felfedezéseit a mindennapi üzleti műveletekhez szállítja.
- az adatbányászati folyamat során felfedezett ismereteket vagy információkat könnyen meg kell érteni a nem technikai érdekelt felek számára.
- az adatbányászati felfedezések szállítására, karbantartására és nyomon követésére részletes telepítési terv készül.
- végleges projektjelentés készül a projekt során szerzett tanulságokkal és kulcsfontosságú tapasztalatokkal. Ez segít a szervezet üzleti politikájának javításában.
adatbányászati technikák
1.Besorolás:
Ez az elemzés az adatokkal és metaadatokkal kapcsolatos fontos és releváns információk lekérésére szolgál. Ez az adatbányászati módszer segít az adatok osztályozásában különböző osztályokban.
2. Klaszterezés:
a klaszterezés elemzése adatbányászati technika az egymáshoz hasonló adatok azonosítására. Ez a folyamat segít megérteni az adatok közötti különbségeket és hasonlóságokat.
3. Regresszió:
a regressziós analízis az adatbányászati módszer a változók közötti kapcsolat azonosítására és elemzésére. Egy adott változó valószínűségének azonosítására szolgál, figyelembe véve más változók jelenlétét.
4. Asszociációs szabályok:
Ez az adatbányászati technika segít megtalálni a kapcsolatot két vagy több elem között. Felfedez egy rejtett mintát az adatkészletben.
5. Külső érzékelés:
Ez a fajta adatbányászati technika az adatkészletben lévő olyan adatelemek megfigyelésére utal, amelyek nem felelnek meg a várt mintának vagy várható viselkedésnek. Ez a technika számos területen használható, például behatolás, észlelés, csalás vagy hibadetektálás stb. A külső észlelést Outlier elemzésnek vagy Outlier bányászatnak is nevezik.
6. Szekvenciális minták:
Ez az adatbányászati technika segít felfedezni vagy azonosítani a tranzakciós adatok hasonló mintáit vagy trendjeit bizonyos ideig.
7. Előrejelzés:
becslés használt kombinációja más technikák adatbányászat, mint a trendek, szekvenciális minták, klaszterezés, osztályozás, stb .. Elemzi a múltbeli eseményeket vagy példányokat egy megfelelő sorrendben egy jövőbeli esemény előrejelzéséhez.
az adatbányászat megvalósításának kihívásai:
- képzett szakértőkre van szükség az adatbányászati lekérdezések megfogalmazásához.
- Overfitting: a kis méretű képzési adatbázis miatt előfordulhat, hogy egy modell nem felel meg a jövőbeli állapotoknak.
- az Adatbányászatnak nagy adatbázisokra van szüksége, amelyeket néha nehéz kezelni
- az üzleti gyakorlatokat módosítani kell a fedetlen információk felhasználásának meghatározásához.
- ha az adatkészlet nem változatos, az adatbányászati eredmények nem pontosak.
- a heterogén adatbázisokból és a globális információs rendszerekből szükséges integrációs információk összetettek lehetnek
adatbányászati példák:
most ebben az adatbányászati kurzusban tanuljunk az adatbányászatról példákkal:
1. példa:
fontolja meg a távközlési szolgáltatás marketingvezetőjét, aki növelni akarja a távolsági szolgáltatások bevételeit. A magas ROI az ő értékesítési és marketing erőfeszítések ügyfél profilalkotás fontos. Hatalmas adatállománya van az ügyfelek információinak, mint például az életkor, nem, jövedelem, hiteltörténet stb. De lehetetlen meghatározni azoknak az embereknek a jellemzőit, akik kézi elemzéssel kedvelik a távolsági hívásokat. Adatbányászati technikák alkalmazásával felfedezheti a nagy távolsági híváshasználók és azok jellemzői közötti mintákat.
például megtanulhatja, hogy legjobb ügyfelei 45-54 éves nők, akik évente több mint 80 000 dollárt keresnek. A Marketing erőfeszítések ilyen demográfiai célokat szolgálhatnak.
2. példa:
a bank új módszereket akar keresni a hitelkártya-műveletekből származó bevételek növelésére. Azt akarják ellenőrizni, hogy a használat megduplázódna-e, ha a díjakat felére csökkentenék.
A banknak több éves rekordja van az átlagos hitelkártya-egyenlegekről, a Fizetési összegekről, a hitelkeret használatáról és más kulcsfontosságú paraméterekről. Létrehoznak egy modellt a javasolt új üzletpolitika hatásának ellenőrzésére. Az adatok azt mutatják, hogy a targeted ügyfélkör díjainak felére csökkentése 10 millió dollárral növelheti a bevételeket.
adatbányászati eszközök
a következők 2 népszerű adatbányászati eszközök széles körben használják az iparban
R-nyelv:
R nyelv egy nyílt forráskódú eszköz statisztikai számítástechnika és Grafika. R számos statisztikai, klasszikus statisztikai teszttel, idősoros elemzéssel, osztályozással és grafikus technikákkal rendelkezik. Hatékony adattároló és-tároló létesítményt kínál.
Tudjon meg többet itt
Oracle adatbányászat:
Az Oracle adatbányászat népszerűen ismert, mivel az ODM az Oracle Advanced Analytics Adatbázis modulja. Ez az adatbányászati eszköz lehetővé teszi az adatelemzők számára, hogy részletes betekintést nyerjenek és előrejelzéseket készítsenek. Segít megjósolni az ügyfelek viselkedését, fejleszti az ügyfélprofilokat, azonosítja a keresztértékesítési lehetőségeket.
Tudjon meg többet itt
az adatbányászat előnyei:
- az adatbányászati technika segít a vállalatoknak tudásalapú információk megszerzésében.
- adatbányászat segíti a szervezeteket, hogy a nyereséges kiigazításokat a működés és a termelés.
- az adatbányászat költséghatékony és hatékony megoldás más statisztikai adatalkalmazásokhoz képest.
- az adatbányászat segít a döntéshozatali folyamatban.
- megkönnyíti a trendek és viselkedések automatizált előrejelzését, valamint a rejtett minták automatikus felfedezését.
- meg lehet valósítani az új rendszerek, valamint a meglévő platformok
- ez a gyors folyamat, amely megkönnyíti a felhasználók számára, hogy elemezze hatalmas mennyiségű adat kevesebb idő alatt.
az adatbányászat hátrányai
- valószínű, hogy a vállalatok hasznos információkat értékesíthetnek ügyfeleikről más vállalatoknak pénzért. Például az American Express eladta ügyfeleinek hitelkártya-vásárlásait a többi vállalatnak.
- sok adatbányászati elemző szoftver nehezen működtethető, és ehhez előzetes képzésre van szükség.
- a különböző adatbányászati eszközök különböző módon működnek a tervezés során alkalmazott különböző algoritmusok miatt. Ezért a helyes adatbányászati eszköz kiválasztása nagyon nehéz feladat.
- az adatbányászati technikák nem pontosak, így bizonyos körülmények között súlyos következményekkel járhat.
adatbányászati Alkalmazások
Alkalmazások | Használati |
---|---|
Kommunikációs | adatbányászati technikákat alkalmaznak a kommunikációs szektor megjósolni ügyfél viselkedés kínál rendkívül megcélozni, illetve a vonatkozó kampányok. |
biztosítás | az adatbányászat segíti a biztosítótársaságokat abban, hogy termékeiket nyereségesen árazzák, és új ajánlatokat mozdítsanak elő új vagy meglévő ügyfeleiknek. |
Oktatás | adatbányászat előnyöket pedagógusok eléréséhez diák adatok megjósolni, teljesítmény szint, megtalálni a diákok, illetve diákcsoportok, ami kell, plusz a figyelmet. Például, a diákok, akik gyengék a matematika tárgy. |
gyártás | segítségével adatbányászat gyártók megjósolni kopás a termelési eszközök. Ők előre karbantartás, amely segít nekik csökkenteni őket, hogy minimalizálják leállás. |
Banking | az adatbányászat segíti a pénzügyi szektort abban, hogy képet kapjon a piaci kockázatokról és kezelje a szabályozási megfelelést. Segít a bankoknak azonosítani a valószínű mulasztókat annak eldöntésében, hogy hitelkártyákat, kölcsönöket stb. |
Retail | az adatbányászati technikák segítenek a kiskereskedelmi plázák és élelmiszerboltok számára a legtöbb eladható elem azonosításában és rendezésében a legfigyelemreméltóbb pozíciókban. Segít a boltosok, hogy jön ki az ajánlatot, amely arra ösztönzi az ügyfeleket, hogy növeljék a kiadások. |
szolgáltatók | az olyan szolgáltatók, mint a mobiltelefon és a közüzemi iparágak, adatbányászatot használnak, hogy megjósolják az okokat, amikor egy ügyfél elhagyja társaságát. Elemzik a számlázási adatokat, az ügyfélszolgálati interakciókat, a céghez benyújtott panaszokat, hogy minden ügyfél számára valószínűségi pontszámot rendeljenek, ösztönzőket kínálva. |
E-kereskedelem | az E-kereskedelmi webhelyek adatbányászatot használnak, hogy webhelyeiken keresztértékesítéseket és értékesítéseket kínáljanak. Az egyik leghíresebb név az Amazon, aki adatbányászati technikákat használ, hogy több ügyfelet szerezzen az e-kereskedelmi áruházukba. |
Super Markets | az adatbányászat lehetővé teszi a szupermarket fejlesztési szabályainak előrejelzését, hogy vásárlóik valószínűleg számítottak-e. A vásárlási minta értékelésével olyan női ügyfeleket találhatnak, akik valószínűleg terhesek. Elkezdhetnek olyan termékeket célozni, mint a babapor, a babaüzlet, a pelenkák stb. |
bűnügyi nyomozás | az adatbányászat segíti a bűnügyi nyomozó ügynökségeket a rendőrségi munkaerő telepítésében (hol van a bűncselekmény, amely valószínűleg megtörténik, és mikor?), ki keres egy határátkelőhelyen stb. |
bioinformatika | az adatbányászat segíti a biológiai adatok bányászatát a biológiában és az orvostudományban összegyűjtött hatalmas adatkészletekből. |
összefoglaló:
- Data Mining definition: Data Mining is all about explaining the past and predicting the future via Data analysis.
- az adatbányászat segít a hatalmas adatkészletekből származó információk kinyerésében. Ez az adatokból származó ismeretek bányászata.
- az adatbányászati folyamat magában foglalja az üzleti megértést, az adatok megértését, az adatok előkészítését, a modellezést, az evolúciót, a telepítést.
- fontos adatbányászati technikák: osztályozás, klaszterezés, regresszió, asszociációs szabályok, külső detektálás, szekvenciális minták és becslés
- az R-nyelv és az Oracle adatbányászat kiemelkedő adatbányászati eszközök és technikák.
- az adatbányászati technika segíti a vállalatokat a tudásalapú információk megszerzésében.
- az adatbányászat legfőbb hátránya, hogy sok elemző szoftver nehezen működtethető, és ehhez előzetes képzésre van szükség.
- adatbányászat használják a különböző iparágakban, mint a kommunikáció, biztosítás, Oktatás, gyártás, banki, kiskereskedelmi, szolgáltatók, e-kereskedelem, szupermarketek bioinformatika.