Articles

10 set di dati aperti per la regressione lineare

Set di dati di regressione lineare per l'apprendimento automatico

Ogni data scientist dovrà probabilmente eseguire attività di regressione lineare e processi di modellazione predittiva ad un certo punto nei loro studi o carriera. Per quelli di voi che cercano di saperne di più sull’argomento o completare alcune assegnazioni di esempio, questo articolo introdurrà set di dati di regressione lineare aperti è possibile scaricare oggi. Inoltre, alcuni dei set di dati di questo elenco includono attività di regressione di esempio da completare con i dati.

Set di dati di regressione lineare per l’apprendimento automatico

Cancer Regressione lineare

Questo set di dati include dati presi da cancer.gov a proposito di morti a causa di cancro negli Stati Uniti. Insieme al set di dati, l’autore include una procedura dettagliata completa su come hanno acquistato e preparato i dati, la loro analisi esplorativa, la selezione del modello, la diagnostica e l’interpretazione.

Dati CDC: Nutrizione, attività fisica, obesità

Dal sistema di sorveglianza del fattore di rischio comportamentale del CDC, questo set di dati include informazioni sull’attività fisica, sul peso e sulla dieta media degli adulti.

Set di dati del mercato ittico per la regressione

Costruito per la regressione lineare multipla e l’analisi multivariata, il set di dati del mercato ittico contiene informazioni sulle specie ittiche comuni nelle vendite sul mercato. Il set di dati include le specie ittiche, il peso, la lunghezza, l’altezza e la larghezza.

Costi di assicurazione medica

Set di dati medici

Questo set di dati è stato ispirato dal libro Machine Learning with R di Brett Lantz. I dati contengono informazioni mediche e costi fatturati dalle compagnie di assicurazione sanitaria. Contiene 1338 righe di dati e le seguenti colonne: età, sesso, BMI, bambini, fumatore, regione, spese assicurative.

Set di dati della Borsa di New York

Creato come risorsa per l’analisi tecnica, questo set di dati contiene i dati storici del mercato azionario di New York. Il set di dati è disponibile in quattro file CSV: prezzi, prezzi-split-adjusted, titoli, e fondamentali. Utilizzando questi dati, è possibile sperimentare la modellazione predittiva, la regressione lineare a rotazione e altro ancora.

Sfida di regressione OLS

La sfida di regressione OLS ti impegna a prevedere i tassi di mortalità per cancro per le contee degli Stati Uniti. Il set di dati contiene dati da cancer.gov, clinicaltrials.gov, e l’indagine della comunità americana. È in formato CSV e include le seguenti informazioni sul cancro negli Stati Uniti: tassi di mortalità, casi segnalati, nome della contea degli Stati Uniti, reddito per contea, popolazione, dati demografici e altro ancora.

Previsione dei prezzi immobiliari

Questo set di dati immobiliari è stato creato per l’analisi di regressione, la regressione lineare, la regressione multipla e i modelli di previsione. Include la data di acquisto, l’età della casa, la posizione, la distanza dalla stazione MRT più vicina e il prezzo della casa dell’unità di superficie.

Qualità del vino rosso

set di dati del vino per la regressione lineare

Dal repository di apprendimento automatico UCI, questo set di dati può essere utilizzato per attività di modellazione e classificazione della regressione. Il set di dati include informazioni sulle proprietà chimiche dei diversi tipi di vino e su come si relazionano alla qualità complessiva.

Set di dati del veicolo da CarDekho

Un set di dati utile per la previsione dei prezzi, questo set di dati del veicolo include informazioni su auto e motocicli elencati su CarDekho.com. I dati sono in un file CSV che include le seguenti colonne: modello, anno, prezzo di vendita, prezzo showroom, chilometri percorsi, tipo di carburante, tipo venditore, trasmissione e numero di proprietari precedenti.

Statistiche OMS sull’aspettativa di vita

Questo set di dati contiene informazioni compilate dall’Organizzazione Mondiale della Sanità e dalle Nazioni Unite per monitorare i fattori che influenzano l’aspettativa di vita. I dati contengono 2938 righe e 22 colonne. Le colonne includono: paese, anno, stato in via di sviluppo, mortalità adulta, aspettativa di vita, morti infantili, consumo di alcol pro capite, spesa del paese per la salute, copertura dell’immunizzazione, BMI, morti sotto i 5 anni, morti a causa di HIV/AIDS, PIL, popolazione, condizione corporea, informazioni sul reddito e istruzione.

Utilizzando i set di dati di cui sopra, si dovrebbe essere in grado di praticare varie attività di modellazione predittiva e regressione lineare. Se stai cercando set di dati più aperti per l’apprendimento automatico, assicurati di controllare la nostra libreria di set di dati e le nostre risorse correlate di seguito.

In alternativa, se stai cercando una piattaforma per annotare i tuoi dati e creare set di dati personalizzati, registrati per una prova gratuita della nostra piattaforma di annotazione dei dati.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *