Tutorial de Minería de datos: Qué es | Proceso | Técnicas y ejemplos
¿Qué es la minería de datos?
La minería de datos es un proceso para encontrar patrones potencialmente útiles a partir de grandes conjuntos de datos. Es una habilidad multidisciplinaria que utiliza el aprendizaje automático, las estadísticas y la IA para extraer información y evaluar la probabilidad de eventos futuros. Los conocimientos derivados de la minería de datos se utilizan para marketing, detección de fraudes, descubrimiento científico, etc.
La minería de datos consiste en descubrir relaciones ocultas, insospechadas y previamente desconocidas pero válidas entre los datos. La minería de datos también se denomina Descubrimiento de conocimiento en Datos (KDD), Extracción de conocimiento, análisis de datos/patrones, recolección de información, etc.
En este tutorial de Minería de datos, aprenderá los fundamentos de la Minería de Datos como-
- ¿Qué es la minería de datos?
- Tipos de Datos
- la Minería de Datos Proceso de Implementación
- comprensión del Negocio:
- compresión de Datos:
- preparación de los Datos:
- transformación de Datos:
- Modelado:
- Técnicas de Minería de Datos
- los Retos de Implementación de la minería de Datos:
- la Minería de Datos Ejemplos:
- Herramientas de Minería de Datos
- los Beneficios de la Minería de Datos:
- Desventajas de la minería de datos
- Aplicaciones de minería de datos
Tipos de datos
La minería de datos se puede realizar en los siguientes tipos de datos
- Bases de datos relacionales
- Almacenes de datos
- Bases de datos avanzadas y repositorios de información
- Bases de datos espaciales y transaccionales
- Bases de datos heterogéneas y heredadas
- Base de datos multimedia y de transmisión
- Bases de datos de texto
- Minería de textos y minería web
Implementación de minería de datos Proceso
Estudiemos en detalle el proceso de implementación de la minería de datos
Comprensión del negocio:
En esta fase, se establecen los objetivos comerciales y de minería de datos.
- En primer lugar, debe comprender los objetivos comerciales y del cliente. Necesita definir lo que quiere su cliente (que muchas veces incluso ellos mismos no saben)
- Hacer un balance del escenario actual de minería de datos. Tenga en cuenta los recursos, las suposiciones, las limitaciones y otros factores importantes en su evaluación.
- Usando los objetivos de negocio y el escenario actual, defina sus objetivos de minería de datos.
- Un buen plan de minería de datos es muy detallado y debe desarrollarse para lograr los objetivos comerciales y de minería de datos.
Comprensión de los datos:
En esta fase, se realiza una comprobación de la cordura de los datos para comprobar si es adecuado para los objetivos de minería de datos.
- En primer lugar, los datos se recopilan de varias fuentes de datos disponibles en la organización.
- Estas fuentes de datos pueden incluir múltiples bases de datos, archivos planos o cubos de datos. Hay problemas como la coincidencia de objetos y la integración de esquemas que pueden surgir durante el proceso de integración de datos. Es un proceso bastante complejo y complicado, ya que es poco probable que los datos de varias fuentes coincidan fácilmente. Por ejemplo, la tabla A contiene una entidad llamada cust_no, mientras que otra tabla B contiene una entidad llamada cust-id.
- Por lo tanto, es bastante difícil asegurarse de que ambos objetos dados se refieran al mismo valor o no. En este caso, se deben utilizar metadatos para reducir los errores en el proceso de integración de datos.
- A continuación, el paso es buscar las propiedades de los datos adquiridos. Una buena manera de explorar los datos es responder a las preguntas de minería de datos (decididas en la fase de negocio) utilizando las herramientas de consulta, generación de informes y visualización.
- En función de los resultados de la consulta, se debe determinar la calidad de los datos. Datos faltantes, en su caso, que deban ser adquiridos.
Preparación de datos:
En esta fase, los datos están listos para la producción.
El proceso de preparación de datos consume aproximadamente el 90% del tiempo del proyecto.
Los datos de diferentes fuentes deben seleccionarse, limpiarse, transformarse, formatearse, anonimizarse y construirse (si es necesario).
La limpieza de datos es un proceso para «limpiar» los datos suavizando los datos ruidosos y rellenando los valores faltantes.
Por ejemplo, para un perfil demográfico de cliente, faltan datos de edad. Los datos están incompletos y deben rellenarse. En algunos casos, podría haber datos atípicos. Por ejemplo, la edad tiene un valor de 300. Los datos podrían ser inconsistentes. Por ejemplo, el nombre del cliente es diferente en diferentes tablas.
Las operaciones de transformación de datos cambian los datos para que sean útiles en la minería de datos. Se puede aplicar la siguiente transformación
Transformación de datos:
Las operaciones de transformación de datos contribuirían al éxito del proceso de minería.
Suavizado: Ayuda a eliminar el ruido de los datos. Agregación
: Se aplican operaciones de resumen o agregación a los datos. Es decir, los datos de ventas semanales se agregan para calcular el total mensual y anual. Generalización
: En este paso, los datos de bajo nivel se reemplazan por conceptos de alto nivel con la ayuda de jerarquías de conceptos. Por ejemplo, la ciudad es reemplazada por el condado.
Normalización: La normalización se realiza cuando los datos de atributos se escalan hacia arriba o hacia abajo. Ejemplo: Los datos deben estar en el rango de -2.0 a 2.0 después de la normalización. Construcción de atributos
: estos atributos se construyen e incluyen el conjunto dado de atributos útiles para la minería de datos.
El resultado de este proceso es un conjunto de datos final que se puede utilizar en el modelado.
Modelización
En esta fase, se utilizan modelos matemáticos para determinar patrones de datos.
- En función de los objetivos de negocio, se deben seleccionar técnicas de modelado adecuadas para el conjunto de datos preparado.
- Crear un escenario para comprobar la calidad y validez del modelo.
- Ejecute el modelo en el conjunto de datos preparado.
- Los resultados deben ser evaluados por todas las partes interesadas para asegurarse de que el modelo pueda cumplir los objetivos de minería de datos.
Evaluación:
En esta fase, los patrones identificados se evalúan en función de los objetivos de negocio.
- Los resultados generados por el modelo de minería de datos deben evaluarse en relación con los objetivos de negocio.
- Comprender el negocio es un proceso iterativo. De hecho, aunque se comprende, pueden surgir nuevos requisitos comerciales debido a la minería de datos.
- Se toma una decisión de ir o no ir para mover el modelo en la fase de implementación.
Implementación:
En la fase de implementación, envía sus descubrimientos de minería de datos a las operaciones comerciales cotidianas.
- El conocimiento o la información descubiertos durante el proceso de minería de datos debe ser fácil de entender para las partes interesadas no técnicas.
- Se crea un plan de implementación detallado para el envío, el mantenimiento y la supervisión de los descubrimientos de minería de datos.
- Se crea un informe final del proyecto con las lecciones aprendidas y las experiencias clave durante el proyecto. Esto ayuda a mejorar la política comercial de la organización.
Técnicas de Minería de Datos
1.Clasificación:
Este análisis se utiliza para recuperar información importante y relevante sobre datos y metadatos. Este método de minería de datos ayuda a clasificar los datos en diferentes clases.
2. Clustering:
El análisis de clustering es una técnica de minería de datos para identificar datos que son similares entre sí. Este proceso ayuda a comprender las diferencias y similitudes entre los datos.
3. Regresión:
El análisis de regresión es el método de minería de datos para identificar y analizar la relación entre variables. Se utiliza para identificar la probabilidad de una variable específica, dada la presencia de otras variables.
4. Reglas de asociación:
Esta técnica de minería de datos ayuda a encontrar la asociación entre dos o más elementos. Descubre un patrón oculto en el conjunto de datos.
5. Detección externa:
Este tipo de técnica de minería de datos se refiere a la observación de elementos de datos en el conjunto de datos que no coinciden con un patrón o comportamiento esperado. Esta técnica se puede utilizar en una variedad de dominios, como intrusión, detección, detección de fraudes o fallas, etc. La detección externa también se denomina Análisis de valores atípicos o minería de valores atípicos.
6. Patrones secuenciales:
Esta técnica de minería de datos ayuda a descubrir o identificar patrones o tendencias similares en los datos de transacciones para un período determinado.
7. Previsión:
La predicción ha utilizado una combinación de las otras técnicas de minería de datos como tendencias, patrones secuenciales, agrupamiento, clasificación, etc. Analiza eventos o instancias pasados en una secuencia correcta para predecir un evento futuro.
Desafíos de la implementación de la minería de datos:
- Se necesitan expertos calificados para formular las consultas de minería de datos.
- Sobreajuste: Debido a la base de datos de entrenamiento de tamaño pequeño, un modelo puede no ajustarse a estados futuros.
- La minería de datos necesita grandes bases de datos que a veces son difíciles de administrar
- Es posible que sea necesario modificar las prácticas comerciales para determinar el uso de la información descubierta.
- Si el conjunto de datos no es diverso, los resultados de la minería de datos pueden no ser precisos.
- La información de integración necesaria de bases de datos heterogéneas y sistemas de información globales podría ser compleja
Ejemplos de minería de datos:
Ahora en este curso de Minería de Datos, aprendamos sobre la minería de datos con ejemplos:
Ejemplo 1:
Considere un jefe de marketing de servicios de telecomunicaciones que quiera aumentar los ingresos de los servicios de larga distancia. Para obtener un alto retorno de la inversión en sus esfuerzos de ventas y marketing, el perfil del cliente es importante. Tiene un vasto conjunto de datos de información de clientes como edad, género,ingresos, historial crediticio, etc. Pero es imposible determinar las características de las personas que prefieren las llamadas de larga distancia con análisis manual. Utilizando técnicas de minería de datos, puede descubrir patrones entre los usuarios de llamadas de larga distancia de alta distancia y sus características.
Por ejemplo, podría enterarse de que sus mejores clientes son mujeres casadas de entre 45 y 54 años que ganan más de 8 80,000 por año. Los esfuerzos de marketing pueden dirigirse a este grupo demográfico.
Ejemplo 2:
Un banco quiere búsqueda de nuevas maneras de aumentar los ingresos de su tarjeta de crédito operaciones. Quieren comprobar si el uso se duplicaría si las tarifas se redujeran a la mitad.
El banco tiene varios años de registro en saldos promedio de tarjetas de crédito, montos de pago, uso de límites de crédito y otros parámetros clave. Crean un modelo para comprobar el impacto de la nueva política empresarial propuesta. Los resultados de los datos muestran que reducir las tarifas a la mitad para una base de clientes objetivo podría aumentar los ingresos en 10 millones de dólares.
Herramientas de minería de datos
Las siguientes son 2 Herramientas de minería de datos populares ampliamente utilizadas en la industria
R-language:
R language es una herramienta de código abierto para computación estadística y gráficos. R tiene una amplia variedad de pruebas estadísticas clásicas, análisis de series temporales, clasificación y técnicas gráficas. Ofrece una instalación de almacenamiento y manejo de datos efectiva.
Obtenga más información aquí
Oracle Data Mining:
Oracle Data Mining, conocido popularmente como ODM, es un módulo de Oracle Advanced Analytics Database. Esta herramienta de minería de datos permite a los analistas de datos generar información detallada y hacer predicciones. Ayuda a predecir el comportamiento del cliente, desarrolla perfiles de clientes, identifica oportunidades de venta cruzada.
Obtenga más información aquí
Beneficios de la minería de datos:
- La técnica de minería de datos ayuda a las empresas a obtener información basada en el conocimiento.
- La minería de datos ayuda a las organizaciones a realizar ajustes rentables en la operación y la producción.
- La minería de datos es una solución rentable y eficiente en comparación con otras aplicaciones de datos estadísticos.
- La minería de datos ayuda con el proceso de toma de decisiones.
- Facilita la predicción automatizada de tendencias y comportamientos, así como el descubrimiento automatizado de patrones ocultos.
- Se puede implementar en nuevos sistemas, así como en plataformas existentes
- Es el proceso rápido que hace que sea fácil para los usuarios analizar una gran cantidad de datos en menos tiempo.
Desventajas de la minería de datos
- Hay posibilidades de que las empresas vendan información útil de sus clientes a otras empresas por dinero. Por ejemplo, American Express ha vendido compras de tarjetas de crédito de sus clientes a otras compañías.
- Muchos software de análisis de minería de datos son difíciles de operar y requieren capacitación avanzada para trabajar.
- Diferentes herramientas de minería de datos funcionan de diferentes maneras debido a los diferentes algoritmos empleados en su diseño. Por lo tanto, la selección de la herramienta de minería de datos correcta es una tarea muy difícil.
- Las técnicas de extracción de datos no son precisas, por lo que pueden causar graves consecuencias en ciertas condiciones.
Aplicaciones de minería de datos
Aplicaciones | Uso |
---|---|
Comunicaciones | Las técnicas de minería de datos se utilizan en el sector de la comunicación para predecir el comportamiento de los clientes y ofrecer campañas altamente segmentadas y relevantes. |
Insurance | La minería de datos ayuda a las compañías de seguros a establecer precios rentables para sus productos y promover nuevas ofertas para sus clientes nuevos o existentes. |
Educación | La minería de datos beneficia a los educadores para acceder a los datos de los estudiantes, predecir los niveles de rendimiento y encontrar estudiantes o grupos de estudiantes que necesitan atención adicional. Por ejemplo, los estudiantes que son débiles en materia de matemáticas. |
Fabricación | Con la ayuda de la Minería de Datos, los Fabricantes pueden predecir el desgaste de los activos de producción. Pueden anticipar el mantenimiento, lo que les ayuda a reducirlos para minimizar el tiempo de inactividad. |
Banca | La minería de datos ayuda al sector financiero a obtener una visión de los riesgos del mercado y gestionar el cumplimiento normativo. Ayuda a los bancos a identificar probables morosos para decidir si emiten tarjetas de crédito, préstamos, etc. |
Retail | Las técnicas de minería de datos ayudan a los centros comerciales y tiendas de comestibles a identificar y organizar la mayoría de los artículos vendibles en las posiciones más atentas. Ayuda a los propietarios de tiendas a presentar la oferta que alienta a los clientes a aumentar sus gastos. |
Proveedores de servicios | Los proveedores de servicios, como las industrias de telefonía móvil y servicios públicos, utilizan la minería de datos para predecir las razones por las que un cliente abandona su empresa. Analizan detalles de facturación, interacciones de servicio al cliente, quejas hechas a la empresa para asignar a cada cliente una puntuación de probabilidad y ofrece incentivos. |
Comercio electrónico | Los sitios web de comercio electrónico utilizan la minería de datos para ofrecer ventas cruzadas y ventas adicionales a través de sus sitios web. Uno de los nombres más famosos es Amazon, que utiliza técnicas de minería de datos para atraer a más clientes a su tienda de comercio electrónico. |
Super Markets | La minería de datos permite que las reglas de desarrollo de supermercados predigan si es probable que sus compradores estén esperando. Al evaluar su patrón de compra, podrían encontrar clientas que probablemente estén embarazadas. Pueden comenzar a apuntar a productos como talco para bebés, tienda de bebés, pañales, etc. |
Investigación de delitos | La minería de datos ayuda a las agencias de investigación de delitos a desplegar personal policial (¿dónde es más probable que ocurra un delito y cuándo?), a quién buscar en un cruce fronterizo, etc. |
Bioinformática | La minería de datos ayuda a extraer datos biológicos de conjuntos de datos masivos recopilados en biología y medicina. |
Resumen:
- Definición de minería de datos: La minería de datos consiste en explicar el pasado y predecir el futuro a través del análisis de datos.
- La minería de datos ayuda a extraer información de grandes conjuntos de datos. Es el procedimiento de extracción de conocimientos a partir de datos.
- El proceso de minería de datos incluye la comprensión del negocio, la Comprensión de los Datos, la Preparación de los Datos, el Modelado, la Evolución y la Implementación.
- Las técnicas importantes de minería de datos son la Clasificación, el agrupamiento, la Regresión, las reglas de asociación, la detección externa, los Patrones secuenciales y la predicción
- R-language y Oracle Data mining son herramientas y técnicas destacadas de minería de datos.
- La técnica de minería de datos ayuda a las empresas a obtener información basada en el conocimiento.
- El principal inconveniente de la minería de datos es que muchos software de análisis son difíciles de operar y requieren capacitación avanzada para trabajar.
- La minería de datos se utiliza en diversas industrias, como Comunicaciones, Seguros, Educación, Fabricación, Banca, Venta minorista, Proveedores de servicios, Comercio electrónico, Bioinformática de supermercados.