Articles

Tutoriel d’exploration de données: Qu’est-ce que /Process/Techniques & Examples

Qu’est-ce que l’exploration de données?

L’exploration de données est un processus de recherche de modèles potentiellement utiles à partir d’énormes ensembles de données. C’est une compétence multidisciplinaire qui utilise l’apprentissage automatique, les statistiques et l’IA pour extraire des informations afin d’évaluer la probabilité d’événements futurs. Les informations dérivées de l’exploration de données sont utilisées pour le marketing, la détection de fraude, la découverte scientifique, etc.

L’exploration de données consiste à découvrir des relations cachées, insoupçonnées et auparavant inconnues mais valides entre les données. L’exploration de données est également appelée Découverte de connaissances dans les données (KDD), extraction de connaissances, analyse de données / modèles, récolte d’informations, etc.

Dans ce tutoriel d’exploration de données, vous apprendrez les principes fondamentaux de l’exploration de données comme –

  • Qu’est-ce que l’exploration de données?
  • Types de données
  • Processus de mise en œuvre de l’exploration de données
  • Compréhension métier :
  • Compréhension des données:
  • Préparation des données:
  • Transformation des données:
  • Modélisation:
  • Techniques d’Exploration de données
  • Défis de la Mise en œuvre de la Mine de données:
  • Exemples d’exploration de données:
  • Outils d’exploration de données
  • Avantages de l’exploration de données:
  • Inconvénients de l’exploration de données
  • Applications d’exploration de données

Types de données

L’exploration de données peut être effectuée sur les types de données suivants

  • Bases de données relationnelles
  • Entrepôts de données
  • Dépôts de base de données et d’informations avancés
  • Bases de données orientées objet et relationnelles
  • Bases de données transactionnelles et spatiales
  • Bases de données hétérogènes et héritées
  • Base de données multimédia et en continu
  • Bases de données textuelles
  • Exploration de texte et exploration Web

Implémentation de l’exploration de données Processus

Processus de mise en œuvre de l'Exploration de données
Processus de mise en œuvre de l’Exploration de données

Étudions en détail le processus de mise en œuvre de l’exploration de données

Compréhension de l’entreprise:

Dans cette phase, les objectifs commerciaux et d’exploration de données sont établis.

  • Tout d’abord, vous devez comprendre les objectifs commerciaux et clients. Vous devez définir ce que votre client veut (ce que plusieurs fois même s’ils ne se connaissent pas eux-mêmes)
  • Faites le point sur le scénario d’exploration de données actuel. Tenez compte des ressources, des hypothèses, des contraintes et d’autres facteurs importants dans votre évaluation.
  • En utilisant les objectifs commerciaux et le scénario actuel, définissez vos objectifs d’exploration de données.
  • Un bon plan d’exploration de données est très détaillé et doit être élaboré pour atteindre les objectifs commerciaux et d’exploration de données.

Compréhension des données:

Dans cette phase, une vérification de la santé mentale des données est effectuée pour vérifier si elle convient aux objectifs d’exploration de données.

  • Tout d’abord, les données sont collectées à partir de plusieurs sources de données disponibles dans l’organisation.
  • Ces sources de données peuvent inclure plusieurs bases de données, des filtres plats ou des cubes de données. Il existe des problèmes tels que la correspondance d’objets et l’intégration de schéma qui peuvent survenir lors du processus d’intégration des données. Il s’agit d’un processus assez complexe et délicat car les données provenant de diverses sources sont peu susceptibles de correspondre facilement. Par exemple, la table A contient une entité nommée cust_no tandis qu’une autre table B contient une entité nommée cust-id.
  • Par conséquent, il est assez difficile de s’assurer que ces deux objets donnés se réfèrent à la même valeur ou non. Ici, les métadonnées doivent être utilisées pour réduire les erreurs dans le processus d’intégration des données.
  • Ensuite, l’étape consiste à rechercher les propriétés des données acquises. Une bonne façon d’explorer les données est de répondre aux questions d’exploration de données (décidées en phase commerciale) à l’aide des outils de requête, de reporting et de visualisation.
  • Sur la base des résultats de la requête, la qualité des données doit être vérifiée. Les données manquantes, le cas échéant, doivent être acquises.

Préparation des données :

Dans cette phase, les données sont prêtes à être produites.

Le processus de préparation des données consomme environ 90% du temps du projet.

Les données provenant de différentes sources doivent être sélectionnées, nettoyées, transformées, formatées, anonymisées et construites (si nécessaire).

Le nettoyage des données consiste à  » nettoyer  » les données en lissant les données bruyantes et en remplissant les valeurs manquantes.

Par exemple, pour un profil démographique client, les données d’âge sont manquantes. Les données sont incomplètes et doivent être remplies. Dans certains cas, il pourrait y avoir des données aberrantes. Par exemple, l’âge a une valeur de 300. Les données pourraient être incohérentes. Par exemple, le nom du client est différent dans différentes tables.

Les opérations de transformation de données modifient les données pour les rendre utiles dans l’exploration de données. La transformation suivante peut être appliquée

Transformation des données:

Les opérations de transformation des données contribueraient au succès du processus d’extraction.

Lissage: Cela aide à éliminer le bruit des données.

Agrégation : Des opérations de synthèse ou d’agrégation sont appliquées aux données. C’est-à-dire que les données des ventes hebdomadaires sont agrégées pour calculer le total mensuel et annuel.

Généralisation: Dans cette étape, les données de bas niveau sont remplacées par des concepts de niveau supérieur à l’aide de hiérarchies de concepts. Par exemple, la ville est remplacée par le comté.

Normalisation : Normalisation effectuée lorsque les données d’attribut sont mises à l’échelle ou réduites. Exemple : Les données devraient se situer entre -2,0 et 2,0 après la normalisation.

Construction d’attributs: ces attributs sont construits et inclus l’ensemble donné d’attributs utiles pour l’exploration de données.

Le résultat de ce processus est un ensemble de données final qui peut être utilisé dans la modélisation.

Modélisation

Dans cette phase, des modèles mathématiques sont utilisés pour déterminer les modèles de données.

  • En fonction des objectifs commerciaux, des techniques de modélisation appropriées doivent être sélectionnées pour l’ensemble de données préparé.
  • Créez un scénario pour tester la qualité et la validité du modèle.
  • Exécutez le modèle sur l’ensemble de données préparé.
  • Les résultats doivent être évalués par toutes les parties prenantes pour s’assurer que le modèle peut atteindre les objectifs d’exploration de données.

Évaluation :

Au cours de cette phase, les modèles identifiés sont évalués par rapport aux objectifs commerciaux.

  • Les résultats générés par le modèle d’exploration de données doivent être évalués par rapport aux objectifs commerciaux.
  • Acquérir une compréhension métier est un processus itératif. En fait, tout en comprenant, de nouvelles exigences commerciales peuvent être soulevées en raison de l’exploration de données.
  • Une décision go ou no-go est prise pour déplacer le modèle dans la phase de déploiement.

Déploiement :

Dans la phase de déploiement, vous expédiez vos découvertes d’exploration de données aux opérations commerciales quotidiennes.

  • Les connaissances ou informations découvertes lors du processus d’exploration de données doivent être faciles à comprendre pour les parties prenantes non techniques.
  • Un plan de déploiement détaillé, pour l’expédition, la maintenance et le suivi des découvertes d’exploration de données est créé.
  • Un rapport de projet final est créé avec les leçons apprises et les expériences clés au cours du projet. Cela contribue à améliorer la politique commerciale de l’organisation.

Techniques d’Exploration de données

Techniques d'Exploration de données
Techniques d’exploration de données

1.Classification :

Cette analyse est utilisée pour récupérer des informations importantes et pertinentes sur les données et les métadonnées. Cette méthode d’exploration de données permet de classer les données dans différentes classes.

2. Clustering :

L’analyse de clustering est une technique d’exploration de données permettant d’identifier des données qui se ressemblent. Ce processus permet de comprendre les différences et les similitudes entre les données.

3. Régression:

L’analyse de régression est la méthode d’exploration de données permettant d’identifier et d’analyser la relation entre les variables. Il est utilisé pour identifier la probabilité d’une variable spécifique, compte tenu de la présence d’autres variables.

4. Règles d’association :

Cette technique d’exploration de données permet de trouver l’association entre deux éléments ou plus. Il découvre un motif caché dans l’ensemble de données.

5. Détection externe:

Ce type de technique d’exploration de données fait référence à l’observation d’éléments de données dans l’ensemble de données qui ne correspondent pas à un modèle attendu ou à un comportement attendu. Cette technique peut être utilisée dans divers domaines, tels que l’intrusion, la détection, la détection de fraude ou de défaut, etc. La détection externe est également appelée Analyse des valeurs aberrantes ou extraction des valeurs aberrantes.

6. Modèles séquentiels :

Cette technique d’exploration de données permet de découvrir ou d’identifier des modèles ou des tendances similaires dans les données de transaction pour une certaine période.

7. Prédiction:

Prediction a utilisé une combinaison d’autres techniques d’exploration de données telles que les tendances, les modèles séquentiels, le clustering, la classification, etc. Il analyse les événements passés ou les instances dans un bon ordre pour prédire un événement futur.

Défis de la mise en œuvre de la mine de données:

  • Des experts qualifiés sont nécessaires pour formuler les requêtes d’exploration de données.
  • Surajustement: En raison de la base de données d’entraînement de petite taille, un modèle peut ne pas correspondre aux états futurs.
  • L’exploration de données nécessite de grandes bases de données qui sont parfois difficiles à gérer
  • Les pratiques commerciales peuvent devoir être modifiées pour déterminer l’utilisation des informations découvertes.
  • Si l’ensemble de données n’est pas diversifié, les résultats de l’exploration de données peuvent ne pas être exacts.
  • Les informations d’intégration nécessaires à partir de bases de données hétérogènes et de systèmes d’information mondiaux peuvent être complexes

Exemples d’exploration de données:

Maintenant, dans ce cours d’exploration de données, apprenons l’exploration de données avec des exemples:

Exemple 1:

Considérez un responsable marketing du service télécom qui souhaite augmenter les revenus des services interurbains. Pour un retour sur investissement élevé sur ses efforts de vente et de marketing, le profilage des clients est important. Il dispose d’un vaste bassin de données d’informations sur les clients telles que l’âge, le sexe, le revenu, les antécédents de crédit, etc. Mais il est impossible de déterminer les caractéristiques des personnes qui préfèrent les appels interurbains avec une analyse manuelle. En utilisant des techniques d’exploration de données, il peut découvrir des modèles entre les utilisateurs d’appels interurbains élevés et leurs caractéristiques.

Par exemple, il pourrait apprendre que ses meilleurs clients sont des femmes mariées âgées de 45 à 54 ans qui gagnent plus de 80 000 $ par an. Les efforts de marketing peuvent être ciblés sur ces groupes démographiques.

Exemple 2 :

Une banque souhaite rechercher de nouveaux moyens d’augmenter les revenus de ses opérations de cartes de crédit. Ils veulent vérifier si l’utilisation doublerait si les frais étaient divisés par deux.

La Banque a plusieurs années d’enregistrement sur les soldes moyens des cartes de crédit, les montants des paiements, l’utilisation des limites de crédit et d’autres paramètres clés. Ils créent un modèle pour vérifier l’impact de la nouvelle politique commerciale proposée. Les résultats des données montrent que la réduction de moitié des frais pour une clientèle ciblée pourrait augmenter les revenus de 10 millions de dollars.

Outils d’exploration de données

Voici 2 Outils d’exploration de données populaires largement utilisés dans l’industrie

R-language:

Le langage R est un outil open source pour le calcul statistique et les graphiques. R a une grande variété de tests statistiques classiques, d’analyses de séries chronologiques, de classification et de techniques graphiques. Il offre une installation efficace de remise et de stockage des données.

En savoir plus ici

Exploration de données Oracle :

L’exploration de données Oracle est communément connue sous le nom d’ODM est un module de la base de données Oracle Advanced Analytics. Cet outil d’exploration de données permet aux analystes de données de générer des informations détaillées et de faire des prévisions. Il permet de prédire le comportement des clients, de développer des profils de clients, d’identifier les opportunités de vente croisée.

En savoir plus ici

Avantages de l’exploration de données:

  • La technique d’exploration de données aide les entreprises à obtenir des informations basées sur la connaissance.
  • L’exploration de données aide les organisations à effectuer les ajustements rentables de l’exploitation et de la production.
  • L’exploration de données est une solution rentable et efficace par rapport à d’autres applications de données statistiques.
  • L’exploration de données aide au processus de prise de décision.
  • Facilite la prédiction automatisée des tendances et des comportements ainsi que la découverte automatisée des modèles cachés.
  • Il peut être implémenté dans de nouveaux systèmes ainsi que sur des plates-formes existantes
  • C’est le processus rapide qui permet aux utilisateurs d’analyser facilement une énorme quantité de données en moins de temps.

Inconvénients de l’exploration de données

  • Il y a des chances que les entreprises vendent des informations utiles de leurs clients à d’autres entreprises pour de l’argent. Par exemple, American Express a vendu les achats par carte de crédit de ses clients aux autres entreprises.
  • De nombreux logiciels d’analyse d’exploration de données sont difficiles à utiliser et nécessitent une formation préalable pour travailler.
  • Différents outils d’exploration de données fonctionnent de différentes manières en raison de différents algorithmes utilisés dans leur conception. Par conséquent, la sélection d’un outil d’exploration de données correct est une tâche très difficile.
  • Les techniques d’exploration de données ne sont pas précises et peuvent donc avoir de graves conséquences dans certaines conditions.

Applications d’exploration de données

Applications Utilisation
Communications Les techniques d’exploration de données sont utilisées dans le secteur de la communication pour prédire le comportement des clients afin de proposer des campagnes hautement ciblées et pertinentes.
Assurance L’exploration de données aide les compagnies d’assurance à évaluer leurs produits de manière rentable et à promouvoir de nouvelles offres auprès de leurs clients nouveaux ou existants.
Éducation L’exploration de données permet aux éducateurs d’accéder aux données des élèves, de prédire les niveaux de réussite et de trouver des étudiants ou des groupes d’étudiants nécessitant une attention particulière. Par exemple, les élèves faibles en matière de mathématiques.
Fabrication Avec l’aide de l’exploration de données, les fabricants peuvent prédire l’usure des actifs de production. Ils peuvent anticiper la maintenance, ce qui les aide à les réduire pour minimiser les temps d’arrêt.
Services bancaires L’exploration de données aide le secteur financier à avoir une vision des risques de marché et à gérer la conformité réglementaire. Il aide les banques à identifier les défaillants probables pour décider d’émettre des cartes de crédit, des prêts, etc.
Retail Les techniques d’exploration de données aident les centres commerciaux et les épiceries à identifier et à ranger les articles les plus vendus dans les positions les plus attentives. Il aide les propriétaires de magasins à proposer une offre qui encourage les clients à augmenter leurs dépenses.
Fournisseurs de services Les fournisseurs de services comme les industries de la téléphonie mobile et des services publics utilisent l’exploration de données pour prédire les raisons pour lesquelles un client quitte son entreprise. Ils analysent les détails de facturation, les interactions avec le service client, les plaintes faites à l’entreprise pour attribuer à chaque client un score de probabilité et propose des incitations.
Commerce électronique Les sites Web de commerce électronique utilisent l’exploration de données pour proposer des ventes croisées et des ventes incitatives via leurs sites Web. L’un des noms les plus célèbres est Amazon, qui utilise des techniques d’exploration de données pour attirer plus de clients dans leur boutique en ligne.
Super Marchés L’exploration de données permet aux règles de développement des supermarchés de prédire si leurs acheteurs étaient susceptibles de s’y attendre. En évaluant leur modèle d’achat, ils pourraient trouver des clientes qui sont probablement enceintes. Ils peuvent commencer à cibler des produits comme la poudre pour bébé, la boutique pour bébés, les couches, etc.
Enquêtes criminelles L’exploration de données aide les organismes d’enquête criminelle à déployer des effectifs de police (où un crime est-il le plus susceptible de se produire et quand?), qui fouiller à un poste frontalier, etc.
Bioinformatique L’exploration de données permet d’extraire des données biologiques à partir d’ensembles de données massifs rassemblés en biologie et en médecine.

Résumé:

  • Définition de l’exploration de données: L’exploration de données consiste à expliquer le passé et à prédire l’avenir via l’analyse de données.
  • L’exploration de données permet d’extraire des informations à partir d’énormes ensembles de données. C’est la procédure d’extraction des connaissances à partir de données.
  • Le processus d’exploration de données comprend la compréhension métier, la Compréhension des Données, la Préparation des Données, la Modélisation, l’Évolution et le Déploiement.
  • Les techniques d’exploration de données importantes sont la classification, le clustering, la régression, les règles d’association, la détection externe, les modèles séquentiels et la prédiction
  • Le langage R et l’exploration de données Oracle sont des outils et des techniques d’exploration de données de premier plan.
  • La technique d’exploration de données aide les entreprises à obtenir des informations basées sur la connaissance.
  • Le principal inconvénient de l’exploration de données est que de nombreux logiciels d’analyse sont difficiles à utiliser et nécessitent une formation préalable pour travailler.
  • L’exploration de données est utilisée dans diverses industries telles que les Communications, l’Assurance, l’Éducation, la Fabrication, la Banque, la Vente au détail, les fournisseurs de services, le commerce électronique, la Bioinformatique des supermarchés.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *