Data Mining Tutorial: co to jest | proces | techniki i przykłady
czym jest data Mining?
Eksploracja danych to proces znajdowania potencjalnie użytecznych wzorców z ogromnych zbiorów danych. Jest to multidyscyplinarna umiejętność, która wykorzystuje uczenie maszynowe, statystyki i sztuczną inteligencję do wydobywania informacji w celu oceny prawdopodobieństwa przyszłych zdarzeń. Informacje pochodzące z eksploracji danych są wykorzystywane do marketingu, wykrywania oszustw, odkryć naukowych itp.
Eksploracja danych polega na odkrywaniu ukrytych, nieoczekiwanych i wcześniej nieznanych, ale ważnych relacji między danymi. Eksploracja danych jest również nazywana odkrywaniem wiedzy w danych (KDD), ekstrakcją wiedzy, analizą danych/wzorców, zbieraniem informacji itp.
w tym samouczku eksploracji danych poznasz podstawy eksploracji danych, takie jak –
- czym jest eksploracja danych?
- rodzaje Danych
- proces implementacji eksploracji danych
- zrozumienie biznesu:
- zrozumienie danych:
- przygotowanie danych:
- transformacja danych:
- Modelowanie:
- techniki eksploracji danych
- wyzwania implementacji kopalni danych:
- przykłady eksploracji danych:
- narzędzia data mining
- korzyści z eksploracji danych:
- wady eksploracji danych
- Aplikacje eksploracji danych
typy danych
eksploracja danych może być wykonywana na następujących typach danych
- relacyjne bazy danych
- hurtownie danych
- zaawansowane repozytoria baz danych i informacji
- obiektowe i obiektowo-relacyjne bazy danych
- transakcyjne i przestrzenne bazy danych
- heterogeniczne i starsze bazy danych
- multimedialne i strumieniowe bazy danych
- tekstowe bazy danych
- eksploracja tekstu i Web Mining
implementacja eksploracji danych Proces
przyjrzyjmy się szczegółowo procesowi implementacji eksploracji danych
zrozumienie biznesu:
w tej fazie ustalane są cele biznesowe i cele eksploracji danych.
- najpierw musisz zrozumieć cele biznesowe i cele klienta. Musisz zdefiniować, czego chce twój klient (który wiele razy nawet sam nie zna)
- Podsumuj aktualny scenariusz eksploracji danych. Uwzględnij zasoby, założenia, ograniczenia i inne istotne czynniki w swojej ocenie.
- korzystając z celów biznesowych i aktualnego scenariusza, określ swoje cele eksploracji danych.
- dobry plan eksploracji danych jest bardzo szczegółowy i powinien zostać opracowany, aby osiągnąć cele zarówno biznesowe, jak i eksploracji danych.
zrozumienie danych:
w tej fazie, sanity check NA danych jest wykonywana w celu sprawdzenia, czy jest odpowiedni dla celów eksploracji danych.
- po pierwsze, dane są zbierane z wielu źródeł danych dostępnych w organizacji.
- te źródła danych mogą obejmować wiele baz danych, płaski filer lub kostki danych. Istnieją problemy, takie jak dopasowanie obiektów i integracja schematu, które mogą pojawić się podczas procesu integracji danych. Jest to dość złożony i skomplikowany proces, ponieważ dane z różnych źródeł raczej nie pasują do siebie. Na przykład, tabela A zawiera encję o nazwie cust_no, podczas gdy inna tabela B zawiera encję o nazwie cust-id.
- dlatego jest dość trudno zapewnić, że oba podane obiekty odnoszą się do tej samej wartości lub nie. W tym przypadku metadane powinny być używane w celu zmniejszenia liczby błędów w procesie integracji danych.
- następnym krokiem jest wyszukanie właściwości pozyskanych danych. Dobrym sposobem na eksplorację danych jest udzielenie odpowiedzi na pytania dotyczące eksploracji danych (określone w fazie biznesowej) za pomocą narzędzi do zapytań, raportowania i wizualizacji.
- na podstawie wyników zapytania należy ustalić jakość danych. Brakujące dane, jeśli takie powinny zostać pozyskane.
przygotowanie danych:
w tej fazie dane są gotowe do produkcji.
proces przygotowania danych zajmuje około 90% czasu projektu.
dane z różnych źródeł powinny być wybierane, czyszczone, przekształcane, formatowane, anonimizowane i konstruowane (jeśli jest to wymagane).
czyszczenie danych to proces „czyszczenia” danych poprzez wygładzanie hałaśliwych danych i wypełnianie brakujących wartości.
na przykład dla profilu demograficznego klienta brakuje danych dotyczących wieku. Dane są niekompletne i należy je wypełnić. W niektórych przypadkach mogą występować wartości odstające od danych. Na przykład wiek ma wartość 300. Dane mogą być niespójne. Na przykład nazwa klienta jest inna w różnych tabelach.
operacje transformacji danych Zmień dane, aby były przydatne w eksploracji danych. Można zastosować następującą transformację
transformacja danych:
operacje transformacji danych przyczyniłyby się do sukcesu procesu wydobywania.
wygładzanie: Pomaga usunąć szum z danych.
agregacja: do danych stosuje się operacje podsumowania lub agregacji. Tj. dane o sprzedaży tygodniowej są agregowane w celu obliczenia sumy miesięcznej i rocznej.
uogólnienie: na tym etapie dane niskiego poziomu są zastępowane pojęciami wyższego poziomu za pomocą hierarchii pojęć. Na przykład miasto jest zastępowane przez Powiat.
normalizacja: normalizacja wykonywana, gdy dane atrybutu są skalowane w górę lub w dół. Przykład: dane powinny mieścić się w zakresie od -2.0 do 2.0 po normalizacji.
Budowa atrybutów: atrybuty te są konstruowane i zawierają dany zestaw atrybutów przydatnych w eksploracji danych.
rezultatem tego procesu jest ostateczny zestaw danych, który można wykorzystać w modelowaniu.
Modelowanie
w tej fazie modele matematyczne są używane do wyznaczania wzorców danych.
- w oparciu o cele biznesowe należy dobrać odpowiednie techniki modelowania dla przygotowanego zbioru danych.
- Utwórz scenariusz, aby sprawdzić jakość i ważność modelu.
- Uruchom model na przygotowanym zbiorze danych.
- Wyniki powinny być oceniane przez wszystkie zainteresowane strony, aby upewnić się, że model może spełnić cele eksploracji danych.
ocena:
w tej fazie zidentyfikowane wzorce są oceniane pod kątem celów biznesowych.
- Wyniki generowane przez model eksploracji danych powinny być oceniane pod kątem celów biznesowych.
- zdobycie zrozumienia biznesowego jest procesem iteracyjnym. W rzeczywistości, podczas gdy zrozumienie, nowe wymagania biznesowe mogą zostać podniesione z powodu eksploracji danych.
- podejmowana jest decyzja o przeniesieniu modelu w fazie wdrażania.
wdrażanie:
w fazie wdrażania twoje odkrycia dotyczące eksploracji danych są wysyłane do codziennych operacji biznesowych.
- wiedza lub informacje odkryte podczas procesu eksploracji danych powinny być łatwe do zrozumienia dla nietechnicznych interesariuszy.
- tworzony jest szczegółowy plan wdrożenia, służący do wysyłki, konserwacji i monitorowania odkryć eksploracji danych.
- końcowy raport projektu jest tworzony z wyciągniętymi doświadczeniami i kluczowymi doświadczeniami podczas projektu. Pomaga to poprawić politykę biznesową organizacji.
techniki eksploracji danych
1.Klasyfikacja:
ta analiza służy do pobierania ważnych i istotnych informacji o danych i metadanych. Ta metoda eksploracji danych pomaga klasyfikować dane w różnych klasach.
2. Grupowanie:
Analiza klastrów jest techniką eksploracji danych w celu identyfikacji danych, które są podobne do siebie. Proces ten pomaga zrozumieć różnice i podobieństwa między danymi.
3. Regresja:
Analiza regresji jest metodą eksploracji danych identyfikacji i analizy relacji między zmiennymi. Jest on używany do identyfikacji prawdopodobieństwa określonej zmiennej, biorąc pod uwagę obecność innych zmiennych.
4. Zasady asocjacji:
Ta technika eksploracji danych pomaga znaleźć asocjację między dwoma lub więcej elementami. Wykrywa Ukryty wzorzec w zbiorze danych.
5. Detekcja zewnętrzna:
ten typ techniki eksploracji danych odnosi się do obserwacji pozycji danych w zbiorze danych, które nie pasują do oczekiwanego wzorca lub oczekiwanego zachowania. Technika ta może być stosowana w różnych dziedzinach, takich jak włamanie, wykrywanie, wykrywanie oszustw lub usterek itp. Detekcja zewnętrzna jest również nazywana analizą odstających lub wydobywaniem odstających.
6. Sekwencyjne wzorce:
ta technika eksploracji danych pomaga odkryć lub zidentyfikować podobne wzorce lub trendy w danych transakcyjnych w określonym okresie.
7. Przewidywanie:
Prediction wykorzystuje kombinację innych technik eksploracji danych, takich jak trendy, sekwencyjne wzorce, klastrowanie, klasyfikacja itp. Analizuje przeszłe zdarzenia lub wystąpienia w odpowiedniej kolejności do przewidywania przyszłego zdarzenia.
wyzwania związane z implementacją Data mine:
- do formułowania zapytań dotyczących eksploracji danych potrzebni są wykwalifikowani eksperci.
- Overfitting: ze względu na mały rozmiar bazy danych treningowych, model może nie pasować do przyszłych Stanów.
- eksploracja danych wymaga dużych baz danych, które czasami są trudne do zarządzania
- praktyki biznesowe mogą wymagać modyfikacji w celu określenia wykorzystania odkrytych informacji.
- Jeśli zestaw danych nie jest zróżnicowany, wyniki eksploracji danych mogą nie być dokładne.
- Informacje o Integracji potrzebne z heterogenicznych baz danych i globalnych systemów informacyjnych mogą być złożone
przykłady eksploracji danych:
teraz w tym kursie eksploracji danych poznajmy eksplorację danych z przykładami:
przykład 1:
rozważ szefa marketingu usług telekomunikacyjnych, który chce zwiększyć przychody z usług długodystansowych. Dla wysokiego zwrotu z inwestycji w działania sprzedażowe i marketingowe ważne jest profilowanie klientów. Ma ogromną pulę danych o klientach, takich jak wiek, płeć, dochód, historia kredytowa itp. Ale niemożliwe jest określenie cech osób, które preferują połączenia międzymiastowe z ręczną analizą. Korzystając z technik eksploracji danych, może odkryć wzorce między użytkownikami połączeń dalekobieżnych i ich cechy.
na przykład, może się dowiedzieć, że jego najlepszymi klientami są zamężne kobiety w wieku od 45 do 54 lat, które zarabiają ponad 80 000 dolarów rocznie. Działania marketingowe mogą być ukierunkowane na takie grupy demograficzne.
przykład 2:
bank chce szukać nowych sposobów na zwiększenie przychodów z operacji kartą kredytową. Chcą sprawdzić, czy użycie podwoiłoby się, gdyby opłaty zostały zmniejszone o połowę.
Bank ma wiele lat rekordu w średnich saldach kart kredytowych, kwotach płatności, zużyciu limitu kredytowego i innych kluczowych parametrach. Tworzą one model sprawdzający wpływ proponowanej nowej polityki biznesowej. Wyniki Danych pokazują, że zmniejszenie opłat o połowę dla docelowej bazy klientów może zwiększyć przychody o 10 milionów dolarów.
narzędzia eksploracji danych
poniżej znajdują się 2 popularne narzędzia eksploracji danych szeroko stosowane w przemyśle
R-language:
r language jest narzędziem open source do obliczeń statystycznych i Grafiki. R ma szeroką gamę statystycznych, klasycznych testów statystycznych, analizy szeregów czasowych, klasyfikacji i technik graficznych. Oferuje efektywne przekazywanie i przechowywanie danych.
Dowiedz się więcej tutaj
Oracle Data Mining:
Oracle Data Mining popularnie znany jako ODM jest modułem bazy danych Oracle Advanced Analytics. To narzędzie do eksploracji danych pozwala analitykom danych generować szczegółowe informacje i tworzyć prognozy. Pomaga przewidywać zachowania klientów, opracowuje profile klientów, identyfikuje możliwości cross-sellingu.
Dowiedz się więcej tutaj
zalety eksploracji danych:
- technika eksploracji danych pomaga firmom uzyskać informacje oparte na wiedzy.
- eksploracja danych pomaga organizacjom dokonać opłacalnych korekt w działaniu i produkcji.
- eksploracja danych jest ekonomicznym i wydajnym rozwiązaniem w porównaniu z innymi aplikacjami danych statystycznych.
- eksploracja danych pomaga w procesie podejmowania decyzji.
- ułatwia automatyczne przewidywanie trendów i zachowań, a także automatyczne wykrywanie ukrytych wzorców.
- może być zaimplementowany zarówno w nowych systemach, jak i na istniejących platformach
- jest to szybki proces, który ułatwia użytkownikom analizę ogromnej ilości danych w krótszym czasie.
wady eksploracji danych
- istnieją szanse, że firmy mogą sprzedawać przydatne informacje swoich klientów innym firmom za pieniądze. Na przykład American Express sprzedał zakupy kartami kredytowymi swoich klientów innym firmom.
- wiele programów do analizy eksploracji danych jest trudnych w obsłudze i wymaga wcześniejszego szkolenia.
- różne narzędzia data mining działają na różne sposoby ze względu na różne algorytmy stosowane w ich projektowaniu. Dlatego wybór odpowiedniego narzędzia do eksploracji danych jest bardzo trudnym zadaniem.
- techniki eksploracji danych nie są dokładne, a więc mogą powodować poważne konsekwencje w pewnych warunkach.
aplikacje do eksploracji danych
Aplikacje | wykorzystanie |
---|---|
Komunikacja | techniki eksploracji danych są wykorzystywane w sektorze komunikacji do przewidywania zachowań klientów w celu oferowania wysoce ukierunkowanych i odpowiednich kampanii. |
ubezpieczenia | eksploracja danych pomaga firmom ubezpieczeniowym wyceniać opłacalne produkty i promować nowe oferty swoim nowym lub istniejącym klientom. |
Edukacja | eksploracja danych przynosi korzyści nauczycielom w zakresie dostępu do danych uczniów, przewidywania poziomów osiągnięć i znajdowania uczniów lub grup uczniów, które wymagają dodatkowej uwagi. Na przykład uczniowie, którzy są słabi w matematyce przedmiotu. |
produkcja | z pomocą Data Mining producenci mogą przewidzieć zużycie aktywów produkcyjnych. Mogą przewidywać konserwację, co pomaga im je zredukować, aby zminimalizować przestoje. |
Bankowość | eksploracja danych pomaga sektorowi finansowemu uzyskać wgląd w ryzyko rynkowe i zarządzać zgodnością z przepisami. Pomaga bankom zidentyfikować prawdopodobnych niewypłacalnych, aby zdecydować, czy wydać karty kredytowe, pożyczki itp. |
Retail | techniki eksploracji danych pomagają centrom handlowym i sklepom spożywczym zidentyfikować i zorganizować najbardziej sprzedające się przedmioty w najbardziej uważnych pozycjach. Pomaga właścicielom sklepów wymyślić ofertę, która zachęca klientów do zwiększenia wydatków. |
dostawcy usług | dostawcy usług, tacy jak branża telefonii komórkowej i mediów, wykorzystują eksplorację danych do przewidywania przyczyn opuszczenia firmy przez Klienta. Analizują dane rozliczeniowe, interakcje z obsługą klienta, skargi składane do firmy, aby przypisać każdemu klientowi wynik prawdopodobieństwa i oferują zachęty. |
e-Commerce | witryny e-commerce wykorzystują eksplorację danych do oferowania cross-sells i up-sells za pośrednictwem swoich stron internetowych. Jednym z najbardziej znanych nazwisk jest Amazon, który wykorzystuje techniki eksploracji danych, aby uzyskać więcej klientów w swoim sklepie eCommerce. |
Super Markets | Eksploracja danych pozwala zasadom rozwoju supermarketów przewidzieć, czy ich klienci prawdopodobnie się spodziewają. Oceniając ich wzór zakupu, mogli znaleźć kobiety, które są najprawdopodobniej w ciąży. Mogą zacząć kierować produkty takie jak proszek dla niemowląt, Sklep dla dzieci, pieluchy i tak dalej. |
dochodzenie w sprawie przestępstw | Eksploracja danych pomaga agencjom dochodzeniowym w rozmieszczaniu pracowników policji (gdzie i kiedy ma miejsce przestępstwo?), kogo szukać na przejściu granicznym itp. |
Bioinformatyka | Eksploracja danych pomaga wydobywać dane biologiczne z ogromnych zbiorów danych zebranych w biologii i medycynie. |
podsumowanie:
- data Mining definicja: Data Mining polega na wyjaśnianiu przeszłości i przewidywaniu przyszłości za pomocą analizy danych.
- eksploracja danych pomaga wydobywać informacje z ogromnych zbiorów danych. Jest to procedura wydobywania wiedzy z danych.
- proces eksploracji danych obejmuje zrozumienie biznesu, zrozumienie danych, przygotowanie danych, modelowanie, ewolucję, wdrażanie.
- ważne techniki eksploracji danych to klasyfikacja, klastrowanie, regresja, reguły Asocjacji, wykrywanie zewnętrzne, wzorce sekwencyjne i przewidywanie
- język R i Oracle Data mining są wiodącymi narzędziami i technikami eksploracji danych.
- Technika eksploracji danych pomaga firmom uzyskać informacje oparte na wiedzy.
- główną wadą eksploracji danych jest to, że wiele programów analitycznych jest trudnych w obsłudze i wymaga wcześniejszego szkolenia.
- eksploracja danych jest wykorzystywana w różnych branżach, takich jak komunikacja, ubezpieczenia, Edukacja, produkcja, Bankowość, handel detaliczny, dostawcy usług, e-commerce, supermarkety Bioinformatyka.