10 seturi de date deschise pentru regresie liniară
fiecare om de știință de date va trebui probabil să efectueze sarcini de regresie liniară și procese de modelare predictivă la un moment dat în studiile sau cariera lor. Pentru cei dintre voi care doresc să afle mai multe despre subiect sau să completeze câteva exemple de sarcini, acest articol va introduce seturi de date deschise de regresie liniară pe care le puteți descărca astăzi. În plus, unele dintre seturile de date din această listă includ sarcini de regresie eșantion pentru a le completa cu datele.
Seturi de date de regresie liniară pentru învățarea automată
regresie liniară Cancer
Acest set de date include date preluate din cancer.gov despre decesele cauzate de cancer în Statele Unite. Împreună cu setul de date, autorul include o prezentare completă a modului în care au obținut și pregătit datele, analiza lor exploratorie, selecția modelului, diagnosticarea și interpretarea.
date CDC: Nutriție, activitate fizică, obezitate
Din sistemul de Supraveghere a factorilor de risc comportamentali de la CDC, acest set de date include informații despre activitatea fizică, greutatea și dieta medie a adulților.
set de date privind piața de pește pentru regresie
construit pentru regresie liniară multiplă și analiză multivariată, setul de date privind piața de pește conține informații despre speciile comune de pești din vânzările de pe piață. Setul de date include speciile de pești, greutatea, lungimea, înălțimea și lățimea.
costuri de asigurare medicală
Acest set de date a fost inspirat de Cartea Machine Learning cu R de Brett Lantz. Datele conțin informații medicale și Costuri facturate de companiile de asigurări de sănătate. Conține 1338 rânduri de date și următoarele coloane: vârstă, sex, IMC, copii, fumător, Regiune, taxe de asigurare.
New York Stock Exchange set de date
creat ca o resursă pentru analiza tehnică, acest set de date conține date istorice de la New York stock market. Setul de date vine în patru fișiere CSV: prețuri, prețuri-ajustate pe părți, valori mobiliare și fundamentale. Folosind aceste date, puteți experimenta modelarea predictivă, regresia liniară rulantă și multe altele.
OLS regresie Challenge
OLS regresie challenge vă SARCINI cu estimarea ratelor de mortalitate de cancer pentru județele din SUA. Setul de date conține date de la cancer.gov, clinicaltrials.gov, și American Community Survey. Este în format CSV și include următoarele informații despre cancer în SUA: ratele de deces, cazurile raportate, numele județului SUA, venitul pe județ, populația, demografia și multe altele.
Predicția prețurilor imobiliare
Acest set de date imobiliare a fost construit pentru analiza regresiei, regresia liniară, regresia multiplă și modelele de predicție. Acesta include data achiziției, vârsta casei, locația, Distanța până la cea mai apropiată stație MRT și prețul casei pentru unitatea de suprafață.
calitatea vinului roșu
din depozitul UCI Machine Learning, acest set de date poate fi utilizat pentru sarcini de modelare și clasificare a regresiei. Setul de date include informații despre proprietățile chimice ale diferitelor tipuri de vin și modul în care acestea se referă la calitatea generală.
setul de date pentru vehicule de la CarDekho
un set de date util pentru predicția prețurilor, acest set de date pentru vehicule include informații despre mașini și motociclete listate pe CarDekho.com. datele se află într-un fișier CSV care include următoarele coloane: model, an, preț de vânzare, preț showroom, kilometri parcurși, Tip combustibil, Tip vânzător, transmisie și număr de proprietari anteriori.
statistici OMS privind speranța de viață
Acest set de date conține informații compilate de Organizația Mondială a sănătății și Organizația Națiunilor Unite pentru a urmări factorii care afectează speranța de viață. Datele conțin 2938 rânduri și 22 de coloane. Coloanele includ: țara, anul, statutul în curs de dezvoltare, mortalitatea adulților, speranța de viață, decesele infantile, consumul de alcool pe cap de locuitor, cheltuielile țării pentru sănătate, acoperirea imunizării, IMC, decese Sub 5 ani, decese cauzate de HIV/SIDA, PIB, populație, starea corpului, informații despre venituri și educație.
folosind seturile de date de mai sus, ar trebui să puteți practica diverse sarcini de modelare predictivă și regresie liniară. Dacă sunteți în căutarea unor seturi de date mai deschise pentru învățarea automată, asigurați-vă că consultați biblioteca noastră de seturi de date și resursele noastre conexe de mai jos.
alternativ, dacă sunteți în căutarea unei platforme pentru a adnota propriile date și a crea seturi de date personalizate, înscrieți-vă pentru o încercare gratuită a platformei noastre de adnotare a datelor.