10 Open Datasets voor lineaire regressie
elke Data scientist zal waarschijnlijk lineaire regressietaken en voorspellende modelleringsprocessen moeten uitvoeren op enig moment in zijn studie of carrière. Voor degenen onder u die meer willen weten over het onderwerp of een aantal voorbeeldtoewijzingen willen voltooien, introduceert dit artikel open lineaire regressie-datasets die u vandaag kunt downloaden. Bovendien bevatten sommige datasets in deze lijst voorbeeldregressietaken die u met de gegevens moet voltooien.
lineaire regressie Datasets voor Machine Learning
kanker lineaire regressie
deze dataset bevat gegevens afkomstig van cancer.gov over sterfgevallen als gevolg van kanker in de Verenigde Staten. Samen met de dataset, de auteur bevat een volledige walkthrough over hoe ze sourced en voorbereid de gegevens, hun verkennende analyse, model selectie, diagnostiek, en interpretatie.
CDC-gegevens: Voeding, lichaamsbeweging, obesitas
deze dataset bevat informatie over lichaamsbeweging, gewicht en gemiddeld volwassen dieet.
Fish Market Dataset voor regressie
gebouwd voor meervoudige lineaire regressie en multivariate analyse, bevat de Fish Market Dataset informatie over veel voorkomende vissoorten in de verkoop op de markt. De dataset bevat de vissoorten, gewicht, lengte, hoogte en breedte.
medische verzekeringskosten
deze dataset werd geïnspireerd door het boek Machine Learning with R van Brett Lantz. De gegevens bevatten medische informatie en kosten die door zorgverzekeraars in rekening worden gebracht. Het bevat 1338 rijen met gegevens en de volgende kolommen: leeftijd, geslacht, BMI, kinderen, roker, regio, verzekeringskosten.
New York Stock Exchange Dataset
deze dataset is gemaakt als een bron voor technische analyse en bevat historische gegevens van de New York stock market. De dataset wordt geleverd in vier CSV-bestanden: prijzen, prijzen-gesplitst-gecorrigeerd, Effecten, en fundamentals. Met behulp van deze gegevens kunt u experimenteren met voorspellende modellering, rollende lineaire regressie en meer.
OLS-regressie-uitdaging
de OLS-regressie-uitdaging belast u met het voorspellen van kankersterfte in Amerikaanse provincies. De dataset bevat gegevens van cancer.gov, clinicaltrials.gov en de American Community Survey. Het is in CSV-formaat en bevat de volgende informatie over kanker in de VS: sterftecijfers, gerapporteerde gevallen, Amerikaanse county naam, inkomen per provincie, bevolking, demografie, en meer.
Real Estate Price Prediction
deze real estate dataset is gebouwd voor regressieanalyse, lineaire regressie, meervoudige regressie en voorspellingsmodellen. Het omvat de datum van aankoop, huis leeftijd, locatie, Afstand tot het dichtstbijzijnde MRT-station,en de prijs van de eenheid gebied.
rode wijnkwaliteit
uit de UCI Machine Learning Repository kan deze dataset worden gebruikt voor regressiemodellering en classificatietaken. De dataset bevat informatie over de chemische eigenschappen van verschillende soorten wijn en hoe deze zich verhouden tot de algehele kwaliteit.
Voertuiggegevensset van CarDekho
een nuttige dataset voor prijsvoorspelling, deze voertuiggegevensset bevat informatie over auto ‘ s en motorfietsen vermeld op CarDekho.com. de gegevens zijn in een CSV-bestand dat de volgende kolommen bevat: model, jaar, verkoopprijs, showroom prijs, kilometers gereden, brandstoftype, verkoper type, transmissie, en het aantal vorige eigenaren.
WHO-statistieken over de levensverwachting
deze dataset bevat informatie die is samengesteld door de Wereldgezondheidsorganisatie en de Verenigde Naties om factoren te volgen die de levensverwachting beïnvloeden. De gegevens bevatten 2938 rijen en 22 kolommen. De kolommen omvatten: land, jaar, ontwikkeling van de status, volwassen sterfte, levensverwachting, Zuigelingensterfte, alcoholconsumptie per hoofd van de bevolking, de uitgaven van het land voor gezondheid, immunisatiedekking, BMI, sterfgevallen onder de 5 jaar, sterfgevallen als gevolg van HIV/AIDS, BBP, bevolking, lichaamsconditie, inkomensinformatie en onderwijs.
met behulp van de bovenstaande datasets zou u in staat moeten zijn om verschillende voorspellende modellering en lineaire regressie taken uit te voeren. Als u op zoek bent naar meer open datasets voor machine learning, moet u onze datasets bibliotheek en onze gerelateerde bronnen hieronder bekijken.
Als u op zoek bent naar een platform om uw eigen gegevens te annoteren en aangepaste datasets te maken, kunt u zich ook aanmelden voor een gratis proefversie van ons platform voor gegevensannotatie.