Articles

Data Mining Tutorial: co to jest | proces | techniki i przykłady

czym jest data Mining?

Eksploracja danych to proces znajdowania potencjalnie użytecznych wzorców z ogromnych zbiorów danych. Jest to multidyscyplinarna umiejętność, która wykorzystuje uczenie maszynowe, statystyki i sztuczną inteligencję do wydobywania informacji w celu oceny prawdopodobieństwa przyszłych zdarzeń. Informacje pochodzące z eksploracji danych są wykorzystywane do marketingu, wykrywania oszustw, odkryć naukowych itp.

Eksploracja danych polega na odkrywaniu ukrytych, nieoczekiwanych i wcześniej nieznanych, ale ważnych relacji między danymi. Eksploracja danych jest również nazywana odkrywaniem wiedzy w danych (KDD), ekstrakcją wiedzy, analizą danych/wzorców, zbieraniem informacji itp.

w tym samouczku eksploracji danych poznasz podstawy eksploracji danych, takie jak –

  • czym jest eksploracja danych?
  • rodzaje Danych
  • proces implementacji eksploracji danych
  • zrozumienie biznesu:
  • zrozumienie danych:
  • przygotowanie danych:
  • transformacja danych:
  • Modelowanie:
  • techniki eksploracji danych
  • wyzwania implementacji kopalni danych:
  • przykłady eksploracji danych:
  • narzędzia data mining
  • korzyści z eksploracji danych:
  • wady eksploracji danych
  • Aplikacje eksploracji danych

typy danych

eksploracja danych może być wykonywana na następujących typach danych

  • relacyjne bazy danych
  • hurtownie danych
  • zaawansowane repozytoria baz danych i informacji
  • obiektowe i obiektowo-relacyjne bazy danych
  • transakcyjne i przestrzenne bazy danych
  • heterogeniczne i starsze bazy danych
  • multimedialne i strumieniowe bazy danych
  • tekstowe bazy danych
  • eksploracja tekstu i Web Mining

implementacja eksploracji danych Proces

proces implementacji Data Mining
proces implementacji Data Mining

przyjrzyjmy się szczegółowo procesowi implementacji eksploracji danych

zrozumienie biznesu:

w tej fazie ustalane są cele biznesowe i cele eksploracji danych.

  • najpierw musisz zrozumieć cele biznesowe i cele klienta. Musisz zdefiniować, czego chce twój klient (który wiele razy nawet sam nie zna)
  • Podsumuj aktualny scenariusz eksploracji danych. Uwzględnij zasoby, założenia, ograniczenia i inne istotne czynniki w swojej ocenie.
  • korzystając z celów biznesowych i aktualnego scenariusza, określ swoje cele eksploracji danych.
  • dobry plan eksploracji danych jest bardzo szczegółowy i powinien zostać opracowany, aby osiągnąć cele zarówno biznesowe, jak i eksploracji danych.

zrozumienie danych:

w tej fazie, sanity check NA danych jest wykonywana w celu sprawdzenia, czy jest odpowiedni dla celów eksploracji danych.

  • po pierwsze, dane są zbierane z wielu źródeł danych dostępnych w organizacji.
  • te źródła danych mogą obejmować wiele baz danych, płaski filer lub kostki danych. Istnieją problemy, takie jak dopasowanie obiektów i integracja schematu, które mogą pojawić się podczas procesu integracji danych. Jest to dość złożony i skomplikowany proces, ponieważ dane z różnych źródeł raczej nie pasują do siebie. Na przykład, tabela A zawiera encję o nazwie cust_no, podczas gdy inna tabela B zawiera encję o nazwie cust-id.
  • dlatego jest dość trudno zapewnić, że oba podane obiekty odnoszą się do tej samej wartości lub nie. W tym przypadku metadane powinny być używane w celu zmniejszenia liczby błędów w procesie integracji danych.
  • następnym krokiem jest wyszukanie właściwości pozyskanych danych. Dobrym sposobem na eksplorację danych jest udzielenie odpowiedzi na pytania dotyczące eksploracji danych (określone w fazie biznesowej) za pomocą narzędzi do zapytań, raportowania i wizualizacji.
  • na podstawie wyników zapytania należy ustalić jakość danych. Brakujące dane, jeśli takie powinny zostać pozyskane.

przygotowanie danych:

w tej fazie dane są gotowe do produkcji.

proces przygotowania danych zajmuje około 90% czasu projektu.

dane z różnych źródeł powinny być wybierane, czyszczone, przekształcane, formatowane, anonimizowane i konstruowane (jeśli jest to wymagane).

czyszczenie danych to proces „czyszczenia” danych poprzez wygładzanie hałaśliwych danych i wypełnianie brakujących wartości.

na przykład dla profilu demograficznego klienta brakuje danych dotyczących wieku. Dane są niekompletne i należy je wypełnić. W niektórych przypadkach mogą występować wartości odstające od danych. Na przykład wiek ma wartość 300. Dane mogą być niespójne. Na przykład nazwa klienta jest inna w różnych tabelach.

operacje transformacji danych Zmień dane, aby były przydatne w eksploracji danych. Można zastosować następującą transformację

transformacja danych:

operacje transformacji danych przyczyniłyby się do sukcesu procesu wydobywania.

wygładzanie: Pomaga usunąć szum z danych.

agregacja: do danych stosuje się operacje podsumowania lub agregacji. Tj. dane o sprzedaży tygodniowej są agregowane w celu obliczenia sumy miesięcznej i rocznej.

uogólnienie: na tym etapie dane niskiego poziomu są zastępowane pojęciami wyższego poziomu za pomocą hierarchii pojęć. Na przykład miasto jest zastępowane przez Powiat.

normalizacja: normalizacja wykonywana, gdy dane atrybutu są skalowane w górę lub w dół. Przykład: dane powinny mieścić się w zakresie od -2.0 do 2.0 po normalizacji.

Budowa atrybutów: atrybuty te są konstruowane i zawierają dany zestaw atrybutów przydatnych w eksploracji danych.

rezultatem tego procesu jest ostateczny zestaw danych, który można wykorzystać w modelowaniu.

Modelowanie

w tej fazie modele matematyczne są używane do wyznaczania wzorców danych.

  • w oparciu o cele biznesowe należy dobrać odpowiednie techniki modelowania dla przygotowanego zbioru danych.
  • Utwórz scenariusz, aby sprawdzić jakość i ważność modelu.
  • Uruchom model na przygotowanym zbiorze danych.
  • Wyniki powinny być oceniane przez wszystkie zainteresowane strony, aby upewnić się, że model może spełnić cele eksploracji danych.

ocena:

w tej fazie zidentyfikowane wzorce są oceniane pod kątem celów biznesowych.

  • Wyniki generowane przez model eksploracji danych powinny być oceniane pod kątem celów biznesowych.
  • zdobycie zrozumienia biznesowego jest procesem iteracyjnym. W rzeczywistości, podczas gdy zrozumienie, nowe wymagania biznesowe mogą zostać podniesione z powodu eksploracji danych.
  • podejmowana jest decyzja o przeniesieniu modelu w fazie wdrażania.

wdrażanie:

w fazie wdrażania twoje odkrycia dotyczące eksploracji danych są wysyłane do codziennych operacji biznesowych.

  • wiedza lub informacje odkryte podczas procesu eksploracji danych powinny być łatwe do zrozumienia dla nietechnicznych interesariuszy.
  • tworzony jest szczegółowy plan wdrożenia, służący do wysyłki, konserwacji i monitorowania odkryć eksploracji danych.
  • końcowy raport projektu jest tworzony z wyciągniętymi doświadczeniami i kluczowymi doświadczeniami podczas projektu. Pomaga to poprawić politykę biznesową organizacji.

techniki eksploracji danych

techniki eksploracji danych
techniki eksploracji danych

1.Klasyfikacja:

ta analiza służy do pobierania ważnych i istotnych informacji o danych i metadanych. Ta metoda eksploracji danych pomaga klasyfikować dane w różnych klasach.

2. Grupowanie:

Analiza klastrów jest techniką eksploracji danych w celu identyfikacji danych, które są podobne do siebie. Proces ten pomaga zrozumieć różnice i podobieństwa między danymi.

3. Regresja:

Analiza regresji jest metodą eksploracji danych identyfikacji i analizy relacji między zmiennymi. Jest on używany do identyfikacji prawdopodobieństwa określonej zmiennej, biorąc pod uwagę obecność innych zmiennych.

4. Zasady asocjacji:

Ta technika eksploracji danych pomaga znaleźć asocjację między dwoma lub więcej elementami. Wykrywa Ukryty wzorzec w zbiorze danych.

5. Detekcja zewnętrzna:

ten typ techniki eksploracji danych odnosi się do obserwacji pozycji danych w zbiorze danych, które nie pasują do oczekiwanego wzorca lub oczekiwanego zachowania. Technika ta może być stosowana w różnych dziedzinach, takich jak włamanie, wykrywanie, wykrywanie oszustw lub usterek itp. Detekcja zewnętrzna jest również nazywana analizą odstających lub wydobywaniem odstających.

6. Sekwencyjne wzorce:

ta technika eksploracji danych pomaga odkryć lub zidentyfikować podobne wzorce lub trendy w danych transakcyjnych w określonym okresie.

7. Przewidywanie:

Prediction wykorzystuje kombinację innych technik eksploracji danych, takich jak trendy, sekwencyjne wzorce, klastrowanie, klasyfikacja itp. Analizuje przeszłe zdarzenia lub wystąpienia w odpowiedniej kolejności do przewidywania przyszłego zdarzenia.

wyzwania związane z implementacją Data mine:

  • do formułowania zapytań dotyczących eksploracji danych potrzebni są wykwalifikowani eksperci.
  • Overfitting: ze względu na mały rozmiar bazy danych treningowych, model może nie pasować do przyszłych Stanów.
  • eksploracja danych wymaga dużych baz danych, które czasami są trudne do zarządzania
  • praktyki biznesowe mogą wymagać modyfikacji w celu określenia wykorzystania odkrytych informacji.
  • Jeśli zestaw danych nie jest zróżnicowany, wyniki eksploracji danych mogą nie być dokładne.
  • Informacje o Integracji potrzebne z heterogenicznych baz danych i globalnych systemów informacyjnych mogą być złożone

przykłady eksploracji danych:

teraz w tym kursie eksploracji danych poznajmy eksplorację danych z przykładami:

przykład 1:

rozważ szefa marketingu usług telekomunikacyjnych, który chce zwiększyć przychody z usług długodystansowych. Dla wysokiego zwrotu z inwestycji w działania sprzedażowe i marketingowe ważne jest profilowanie klientów. Ma ogromną pulę danych o klientach, takich jak wiek, płeć, dochód, historia kredytowa itp. Ale niemożliwe jest określenie cech osób, które preferują połączenia międzymiastowe z ręczną analizą. Korzystając z technik eksploracji danych, może odkryć wzorce między użytkownikami połączeń dalekobieżnych i ich cechy.

na przykład, może się dowiedzieć, że jego najlepszymi klientami są zamężne kobiety w wieku od 45 do 54 lat, które zarabiają ponad 80 000 dolarów rocznie. Działania marketingowe mogą być ukierunkowane na takie grupy demograficzne.

przykład 2:

bank chce szukać nowych sposobów na zwiększenie przychodów z operacji kartą kredytową. Chcą sprawdzić, czy użycie podwoiłoby się, gdyby opłaty zostały zmniejszone o połowę.

Bank ma wiele lat rekordu w średnich saldach kart kredytowych, kwotach płatności, zużyciu limitu kredytowego i innych kluczowych parametrach. Tworzą one model sprawdzający wpływ proponowanej nowej polityki biznesowej. Wyniki Danych pokazują, że zmniejszenie opłat o połowę dla docelowej bazy klientów może zwiększyć przychody o 10 milionów dolarów.

narzędzia eksploracji danych

poniżej znajdują się 2 popularne narzędzia eksploracji danych szeroko stosowane w przemyśle

R-language:

r language jest narzędziem open source do obliczeń statystycznych i Grafiki. R ma szeroką gamę statystycznych, klasycznych testów statystycznych, analizy szeregów czasowych, klasyfikacji i technik graficznych. Oferuje efektywne przekazywanie i przechowywanie danych.

Dowiedz się więcej tutaj

Oracle Data Mining:

Oracle Data Mining popularnie znany jako ODM jest modułem bazy danych Oracle Advanced Analytics. To narzędzie do eksploracji danych pozwala analitykom danych generować szczegółowe informacje i tworzyć prognozy. Pomaga przewidywać zachowania klientów, opracowuje profile klientów, identyfikuje możliwości cross-sellingu.

Dowiedz się więcej tutaj

zalety eksploracji danych:

  • technika eksploracji danych pomaga firmom uzyskać informacje oparte na wiedzy.
  • eksploracja danych pomaga organizacjom dokonać opłacalnych korekt w działaniu i produkcji.
  • eksploracja danych jest ekonomicznym i wydajnym rozwiązaniem w porównaniu z innymi aplikacjami danych statystycznych.
  • eksploracja danych pomaga w procesie podejmowania decyzji.
  • ułatwia automatyczne przewidywanie trendów i zachowań, a także automatyczne wykrywanie ukrytych wzorców.
  • może być zaimplementowany zarówno w nowych systemach, jak i na istniejących platformach
  • jest to szybki proces, który ułatwia użytkownikom analizę ogromnej ilości danych w krótszym czasie.

wady eksploracji danych

  • istnieją szanse, że firmy mogą sprzedawać przydatne informacje swoich klientów innym firmom za pieniądze. Na przykład American Express sprzedał zakupy kartami kredytowymi swoich klientów innym firmom.
  • wiele programów do analizy eksploracji danych jest trudnych w obsłudze i wymaga wcześniejszego szkolenia.
  • różne narzędzia data mining działają na różne sposoby ze względu na różne algorytmy stosowane w ich projektowaniu. Dlatego wybór odpowiedniego narzędzia do eksploracji danych jest bardzo trudnym zadaniem.
  • techniki eksploracji danych nie są dokładne, a więc mogą powodować poważne konsekwencje w pewnych warunkach.

aplikacje do eksploracji danych

Aplikacje wykorzystanie
Komunikacja techniki eksploracji danych są wykorzystywane w sektorze komunikacji do przewidywania zachowań klientów w celu oferowania wysoce ukierunkowanych i odpowiednich kampanii.
ubezpieczenia eksploracja danych pomaga firmom ubezpieczeniowym wyceniać opłacalne produkty i promować nowe oferty swoim nowym lub istniejącym klientom.
Edukacja eksploracja danych przynosi korzyści nauczycielom w zakresie dostępu do danych uczniów, przewidywania poziomów osiągnięć i znajdowania uczniów lub grup uczniów, które wymagają dodatkowej uwagi. Na przykład uczniowie, którzy są słabi w matematyce przedmiotu.
produkcja z pomocą Data Mining producenci mogą przewidzieć zużycie aktywów produkcyjnych. Mogą przewidywać konserwację, co pomaga im je zredukować, aby zminimalizować przestoje.
Bankowość eksploracja danych pomaga sektorowi finansowemu uzyskać wgląd w ryzyko rynkowe i zarządzać zgodnością z przepisami. Pomaga bankom zidentyfikować prawdopodobnych niewypłacalnych, aby zdecydować, czy wydać karty kredytowe, pożyczki itp.
Retail techniki eksploracji danych pomagają centrom handlowym i sklepom spożywczym zidentyfikować i zorganizować najbardziej sprzedające się przedmioty w najbardziej uważnych pozycjach. Pomaga właścicielom sklepów wymyślić ofertę, która zachęca klientów do zwiększenia wydatków.
dostawcy usług dostawcy usług, tacy jak branża telefonii komórkowej i mediów, wykorzystują eksplorację danych do przewidywania przyczyn opuszczenia firmy przez Klienta. Analizują dane rozliczeniowe, interakcje z obsługą klienta, skargi składane do firmy, aby przypisać każdemu klientowi wynik prawdopodobieństwa i oferują zachęty.
e-Commerce witryny e-commerce wykorzystują eksplorację danych do oferowania cross-sells i up-sells za pośrednictwem swoich stron internetowych. Jednym z najbardziej znanych nazwisk jest Amazon, który wykorzystuje techniki eksploracji danych, aby uzyskać więcej klientów w swoim sklepie eCommerce.
Super Markets Eksploracja danych pozwala zasadom rozwoju supermarketów przewidzieć, czy ich klienci prawdopodobnie się spodziewają. Oceniając ich wzór zakupu, mogli znaleźć kobiety, które są najprawdopodobniej w ciąży. Mogą zacząć kierować produkty takie jak proszek dla niemowląt, Sklep dla dzieci, pieluchy i tak dalej.
dochodzenie w sprawie przestępstw Eksploracja danych pomaga agencjom dochodzeniowym w rozmieszczaniu pracowników policji (gdzie i kiedy ma miejsce przestępstwo?), kogo szukać na przejściu granicznym itp.
Bioinformatyka Eksploracja danych pomaga wydobywać dane biologiczne z ogromnych zbiorów danych zebranych w biologii i medycynie.

podsumowanie:

  • data Mining definicja: Data Mining polega na wyjaśnianiu przeszłości i przewidywaniu przyszłości za pomocą analizy danych.
  • eksploracja danych pomaga wydobywać informacje z ogromnych zbiorów danych. Jest to procedura wydobywania wiedzy z danych.
  • proces eksploracji danych obejmuje zrozumienie biznesu, zrozumienie danych, przygotowanie danych, modelowanie, ewolucję, wdrażanie.
  • ważne techniki eksploracji danych to klasyfikacja, klastrowanie, regresja, reguły Asocjacji, wykrywanie zewnętrzne, wzorce sekwencyjne i przewidywanie
  • język R i Oracle Data mining są wiodącymi narzędziami i technikami eksploracji danych.
  • Technika eksploracji danych pomaga firmom uzyskać informacje oparte na wiedzy.
  • główną wadą eksploracji danych jest to, że wiele programów analitycznych jest trudnych w obsłudze i wymaga wcześniejszego szkolenia.
  • eksploracja danych jest wykorzystywana w różnych branżach, takich jak komunikacja, ubezpieczenia, Edukacja, produkcja, Bankowość, handel detaliczny, dostawcy usług, e-commerce, supermarkety Bioinformatyka.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *