10 offene Datensätze für lineare Regression
Jeder Data Scientist wird wahrscheinlich irgendwann in seinem Studium oder seiner Karriere lineare Regressionsaufgaben und Vorhersagemodellierungsprozesse durchführen müssen. Für diejenigen unter Ihnen, die mehr über das Thema erfahren oder einige Beispielaufgaben ausführen möchten, In diesem Artikel werden offene lineare Regressionsdatensätze vorgestellt, die Sie heute herunterladen können. Darüber hinaus enthalten einige der Datensätze in dieser Liste Beispielregressionsaufgaben, die Sie mit den Daten ausführen können.
Lineare Regressionsdatensätze für maschinelles Lernen
Krebs Lineare Regression
Dieser Datensatz enthält Daten aus cancer.gov über Todesfälle aufgrund von Krebs in den Vereinigten Staaten. Zusammen mit dem Datensatz enthält der Autor eine vollständige Anleitung zur Beschaffung und Aufbereitung der Daten, ihrer explorativen Analyse, Modellauswahl, Diagnose und Interpretation.
CDC-Daten: Ernährung, körperliche Aktivität, Fettleibigkeit
Aus dem Behavioral Risk Factor Surveillance System der CDC enthält dieser Datensatz Informationen zu körperlicher Aktivität, Gewicht und durchschnittlicher Ernährung von Erwachsenen.
Fischmarkt-Datensatz für die Regression
Der Fischmarkt-Datensatz wurde für die multiple lineare Regression und multivariate Analyse erstellt und enthält Informationen zu gängigen Fischarten im Marktverkauf. Der Datensatz enthält die Fischarten, Gewicht, Länge, Höhe und Breite.
Krankenversicherungskosten
Dieser Datensatz wurde durch das Buch Machine Learning with R von Brett Lantz inspiriert. Die Daten enthalten medizinische Informationen und Kosten, die von den Krankenkassen in Rechnung gestellt werden. Es enthält 1338 Datenzeilen und die folgenden Spalten: Alter, Geschlecht, BMI, Kinder, Raucher, Region, Versicherungskosten.
New York Stock Exchange Dataset
Dieser Datensatz wurde als Ressource für die technische Analyse erstellt und enthält historische Daten des New Yorker Aktienmarktes. Der Datensatz wird in vier CSV-Dateien geliefert: preise, Preise-Split-adjusted, Wertpapiere und Fundamentaldaten. Anhand dieser Daten können Sie mit prädiktiver Modellierung, rollierender linearer Regression und mehr experimentieren.
OLS Regression Challenge
Die OLS Regression Challenge Aufgaben, die Sie mit der Vorhersage der Krebssterblichkeit für US-Landkreise. Der Datensatz enthält Daten von cancer.gov, clinicaltrials.gov und der American Community Survey. Es ist im CSV-Format und enthält die folgenden Informationen über Krebs in den USA: Sterberaten, gemeldete Fälle, US County Name, Einkommen pro Landkreis, Bevölkerung, Demografie und mehr.
Immobilienpreisprognose
Dieser Immobilien-Datensatz wurde für Regressionsanalysen, lineare Regression, multiple Regression und Vorhersagemodelle erstellt. Es enthält das Kaufdatum, das Hausalter, den Standort, die Entfernung zur nächsten MRT-Station und den Hauspreis der Flächeneinheit.
Rotweinqualität
Aus dem UCI Machine Learning Repository kann dieser Datensatz für Regressionsmodellierungs- und Klassifizierungsaufgaben verwendet werden. Der Datensatz enthält Informationen über die chemischen Eigenschaften verschiedener Weinsorten und deren Beziehung zur Gesamtqualität.
Fahrzeugdatensatz von CarDekho
Dieser Fahrzeugdatensatz ist ein nützlicher Datensatz für die Preisvorhersage und enthält Informationen zu Autos und Motorrädern, die auf CarDekho.com . Die Daten befinden sich in einer CSV-Datei, die die folgenden Spalten enthält: Modell, Baujahr, Verkaufspreis, Ausstellungsraumpreis, gefahrene Kilometer, Kraftstofftyp, Verkäufertyp, Getriebe und Anzahl der Vorbesitzer.
WHO-Statistiken zur Lebenserwartung
Dieser Datensatz enthält Informationen, die von der Weltgesundheitsorganisation und den Vereinten Nationen zusammengestellt wurden, um Faktoren zu verfolgen, die die Lebenserwartung beeinflussen. Die Daten enthalten 2938 Zeilen und 22 Spalten. Die Spalten umfassen: Land, Jahr, Entwicklungsstatus, Erwachsenensterblichkeit, Lebenserwartung, Säuglingstodesfälle, Alkoholkonsum pro Kopf, Gesundheitsausgaben des Landes, Impfschutz, BMI, Todesfälle unter 5 Jahren, Todesfälle aufgrund von HIV / AIDS, BIP, Bevölkerung, Körperzustand, Einkommensinformationen und Bildung.
Mit den obigen Datensätzen sollten Sie in der Lage sein, verschiedene Vorhersagemodellierungs- und lineare Regressionsaufgaben zu üben. Wenn Sie nach weiteren offenen Datensätzen für maschinelles Lernen suchen, schauen Sie sich unbedingt unsere Datensatzbibliothek und unsere zugehörigen Ressourcen unten an.
Wenn Sie nach einer Plattform suchen, um Ihre eigenen Daten zu kommentieren und benutzerdefinierte Datensätze zu erstellen, melden Sie sich für eine kostenlose Testversion unserer Data Annotation Platform an.