10 Ensembles de Données Ouverts pour la Régression Linéaire
Chaque data scientist devra probablement effectuer des tâches de régression linéaire et des processus de modélisation prédictive à un moment donné de ses études ou de sa carrière. Pour ceux d’entre vous qui cherchent à en savoir plus sur le sujet ou à compléter des exemples de travaux, cet article présentera des ensembles de données de régression linéaire ouverte que vous pouvez télécharger dès aujourd’hui. De plus, certains des ensembles de données de cette liste incluent des exemples de tâches de régression que vous pouvez effectuer avec les données.
Ensembles de données de Régression linéaire pour l’apprentissage automatique
Régression linéaire du cancer
Cet ensemble de données comprend des données tirées de cancer.gov à propos des décès dus au cancer aux États-Unis. Avec l’ensemble de données, l’auteur comprend une procédure pas à pas complète sur la façon dont il a obtenu et préparé les données, leur analyse exploratoire, la sélection du modèle, les diagnostics et l’interprétation.
Données CDC: Nutrition, Activité Physique, Obésité
D’après le Système de surveillance des facteurs de risque comportementaux du CDC, cet ensemble de données comprend des informations sur l’activité physique, le poids et le régime alimentaire moyen des adultes.
Jeu de données sur le marché du poisson pour la régression
Conçu pour une régression linéaire multiple et une analyse multivariée, le Jeu de données sur le marché du poisson contient des informations sur les espèces de poissons courantes dans les ventes sur le marché. L’ensemble de données comprend l’espèce de poisson, le poids, la longueur, la hauteur et la largeur.
Frais d’assurance médicale
Cet ensemble de données a été inspiré par le livre Machine Learning with R de Brett Lantz. Les données contiennent des informations médicales et des frais facturés par les compagnies d’assurance maladie. Il contient 1338 lignes de données et les colonnes suivantes: âge, sexe, IMC, enfants, fumeur, région, frais d’assurance.
Jeu de données de la Bourse de New York
Créé comme une ressource pour l’analyse technique, cet ensemble de données contient des données historiques de la bourse de New York. L’ensemble de données est disponible en quatre fichiers CSV: prix, prix – corrigés des fractionnements, titres et fondamentaux. En utilisant ces données, vous pouvez expérimenter la modélisation prédictive, la régression linéaire continue, etc.
Défi de régression OLS
Le défi de régression OLS vous charge de prédire les taux de mortalité par cancer pour les comtés américains. L’ensemble de données contient des données de cancer.gov , clinicaltrials.gov , et l’Enquête communautaire américaine. Il est au format CSV et comprend les informations suivantes sur le cancer aux États-Unis: taux de mortalité, cas signalés, nom du comté américain, revenu par comté, population, données démographiques, etc.
Prévision des prix immobiliers
Cet ensemble de données immobilières a été construit pour l’analyse de régression, la régression linéaire, la régression multiple et les modèles de prédiction. Il comprend la date d’achat, l’âge de la maison, l’emplacement, la distance jusqu’à la station MRT la plus proche et le prix de la maison par unité de surface.
Qualité du vin rouge
À partir du référentiel d’apprentissage automatique UCI, cet ensemble de données peut être utilisé pour la modélisation de régression et les tâches de classification. L’ensemble de données comprend des informations sur les propriétés chimiques des différents types de vin et leur rapport avec la qualité globale.
Jeu de données sur les véhicules de CarDekho
Un jeu de données utile pour la prévision des prix, ce jeu de données sur les véhicules comprend des informations sur les voitures et les motos répertoriées sur CarDekho.com . Les données sont dans un fichier CSV qui comprend les colonnes suivantes: modèle, année, prix de vente, prix de la salle d’exposition, kilomètres parcourus, type de carburant, type de vendeur, transmission et nombre de propriétaires précédents.
Statistiques de l’OMS sur l’espérance de vie
Cet ensemble de données contient des informations compilées par l’Organisation mondiale de la Santé et les Nations Unies pour suivre les facteurs qui affectent l’espérance de vie. Les données contiennent 2938 lignes et 22 colonnes. Les colonnes comprennent: pays, année, statut en développement, mortalité des adultes, espérance de vie, décès des nourrissons, consommation d’alcool par habitant, dépenses de santé du pays, couverture vaccinale, IMC, décès de moins de 5 ans, décès dus au VIH / SIDA, PIB, population, état corporel, informations sur le revenu et éducation.
En utilisant les jeux de données ci-dessus, vous devriez pouvoir pratiquer diverses tâches de modélisation prédictive et de régression linéaire. Si vous recherchez des jeux de données plus ouverts pour l’apprentissage automatique, n’oubliez pas de consulter notre bibliothèque de jeux de données et nos ressources connexes ci-dessous.
Si vous cherchez une plateforme pour annoter vos propres données et créer des jeux de données personnalisés, inscrivez-vous pour un essai gratuit de notre plateforme d’annotation de données.