Articles

10 Conjuntos de Datos Abiertos para Regresión Lineal

Conjuntos de datos de regresión lineal para Aprendizaje automático

Es probable que cada científico de datos tenga que realizar tareas de regresión lineal y procesos de modelado predictivo en algún momento de sus estudios o carrera. Para aquellos de ustedes que buscan obtener más información sobre el tema o completar algunas tareas de ejemplo, este artículo presentará conjuntos de datos de regresión lineal abiertos que puede descargar hoy. Además, algunos de los conjuntos de datos de esta lista incluyen tareas de regresión de ejemplo para completar con los datos.

Conjuntos de datos de regresión Lineal para Aprendizaje automático

Regresión Lineal del cáncer

Este conjunto de datos incluye datos tomados de cancer.gov acerca de las muertes por cáncer en los Estados Unidos. Junto con el conjunto de datos, el autor incluye un recorrido completo sobre cómo obtuvieron y prepararon los datos, su análisis exploratorio, selección de modelos, diagnóstico e interpretación.

Datos de los CDC: Nutrición, Actividad Física, Obesidad

Del Sistema de Vigilancia de Factores de Riesgo Conductuales de los CDC, este conjunto de datos incluye información sobre la actividad física, el peso y la dieta promedio de los adultos.

Conjunto de datos del mercado de pescado para regresión

Creado para regresión lineal múltiple y análisis multivariante, el conjunto de datos del Mercado de pescado contiene información sobre especies de pescado comunes en las ventas del mercado. El conjunto de datos incluye las especies de peces, el peso, la longitud, la altura y la anchura.

Costos de seguro médico

Conjuntos de datos médicos

Este conjunto de datos se inspiró en el libro Machine Learning with R de Brett Lantz. Los datos contienen información médica y costos facturados por las compañías de seguros de salud. Contiene 1338 filas de datos y las siguientes columnas: edad, sexo, IMC, hijos, fumador, región, cargos de seguro.

Conjunto de datos de la Bolsa de Valores de Nueva York

Creado como recurso para el análisis técnico, este conjunto de datos contiene datos históricos de la bolsa de valores de Nueva York. El conjunto de datos viene en cuatro archivos CSV: precios, precios ajustados por división, valores y variables fundamentales. Con estos datos, puede experimentar con modelos predictivos, regresión lineal continua y más.

Desafío de regresión OLS

El desafío de regresión OLS le encarga predecir las tasas de mortalidad por cáncer en los condados de EE. El conjunto de datos contiene datos de cancer.gov, clinicaltrials.gov y la Encuesta de la Comunidad Americana. Está en formato CSV e incluye la siguiente información sobre el cáncer en los Estados Unidos: tasas de mortalidad, casos notificados, nombre del condado de los Estados Unidos, ingresos por condado, población, datos demográficos y más.

Predicción de precios de bienes raíces

Este conjunto de datos de bienes raíces se creó para análisis de regresión, regresión lineal, regresión múltiple y modelos de predicción. Incluye la fecha de compra, la antigüedad de la casa, la ubicación, la distancia a la estación de MRT más cercana y el precio de la casa por unidad de área.

Calidad del vino tinto

Conjuntos de datos de vino para regresión lineal

Desde el repositorio de aprendizaje automático de UCI, este conjunto de datos se puede utilizar para tareas de modelado y clasificación de regresión. El conjunto de datos incluye información sobre las propiedades químicas de los diferentes tipos de vino y cómo se relacionan con la calidad general.

Conjunto de datos de vehículos de CarDekho

Un conjunto de datos útil para la predicción de precios, este conjunto de datos de vehículos incluye información sobre automóviles y motocicletas que figuran en CarDekho.com Los datos se encuentran en un archivo CSV que incluye las siguientes columnas: modelo, año, precio de venta, precio de exposición, kilómetros recorridos, tipo de combustible, tipo de vendedor, transmisión y número de propietarios anteriores.

Estadísticas de la OMS sobre esperanza de vida

Este conjunto de datos contiene información recopilada por la Organización Mundial de la Salud y las Naciones Unidas para hacer un seguimiento de los factores que afectan a la esperanza de vida. Los datos contienen 2938 filas y 22 columnas. Las columnas incluyen: país, año, estado de desarrollo, mortalidad de adultos, esperanza de vida, muertes infantiles, consumo de alcohol per cápita, gasto del país en salud, cobertura de inmunización, IMC, muertes de menores de 5 años, muertes por VIH/SIDA, PIB, población, condición corporal, información sobre ingresos y educación.

Utilizando los conjuntos de datos anteriores, debería poder practicar varias tareas de modelado predictivo y regresión lineal. Si está buscando más conjuntos de datos abiertos para el aprendizaje automático, asegúrese de consultar nuestra biblioteca de conjuntos de datos y nuestros recursos relacionados a continuación.

Alternativamente, si está buscando una plataforma para anotar sus propios datos y crear conjuntos de datos personalizados, regístrese para una prueba gratuita de nuestra plataforma de anotación de datos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *