10 åbne datasæt til lineær Regression
enhver dataforsker bliver sandsynligvis nødt til at udføre lineære regressionsopgaver og forudsigelige modelleringsprocesser på et eller andet tidspunkt i deres studier eller karriere. For dem af jer, der ønsker at lære mere om emnet eller udføre nogle eksempler på opgaver, introducerer denne artikel åbne lineære regressionsdatasæt, du kan hente i dag. Derudover inkluderer nogle af datasættene på denne liste eksempler på regressionsopgaver, som du kan udføre med dataene.
lineære Regressionsdatasæt til maskinindlæring
kræft lineær Regression
dette datasæt indeholder data taget fra cancer.gov om dødsfald på grund af kræft i USA. Sammen med datasættet, forfatteren inkluderer en komplet gennemgang af, hvordan de hentede og forberedte dataene, deres sonderende analyse, modelvalg, diagnostik, og fortolkning.
CDC Data: Ernæring, fysisk aktivitet, fedme
fra adfærdsmæssig Risikofaktorovervågningssystem ved CDC indeholder dette datasæt information om fysisk aktivitet, vægt og gennemsnitlig voksen kost.
Fiskemarkedsdatasæt til Regression
Fiskemarkedsdatasættet er bygget til multipel lineær regression og multivariat analyse og indeholder oplysninger om almindelige fiskearter i markedssalg. Datasættet omfatter fiskearter, vægt, længde, højde og bredde.
medicinske forsikringsomkostninger
dette datasæt blev inspireret af bogen Machine Learning med R af Brett Lantse. Dataene indeholder medicinske oplysninger og omkostninger faktureret af sundhedsforsikringsselskaber. Den indeholder 1338 rækker af data og følgende kolonner: alder, køn, BMI, børn, ryger, region, forsikringsgebyrer.
ny Børsdatasæt
oprettet som en ressource til teknisk analyse, indeholder dette datasæt Historiske data fra Ny York aktiemarkedet. Datasættet kommer i fire CSV-filer: priser, priser-split-justeret, værdipapirer og fundamentals. Ved hjælp af disse data kan du eksperimentere med forudsigelig modellering, rullende lineær regression og meget mere.
OLS Regression Challenge
OLS regression challenge opgaver dig med at forudsige kræft dødelighed for amerikanske amter. Datasættet indeholder data fra cancer.gov, clinicaltrials.gov og den amerikanske samfundsundersøgelse. Det er i CSV-format og inkluderer følgende oplysninger om kræft i USA: dødsrater, rapporterede tilfælde, amerikansk amtsnavn, indkomst pr.amt, befolkning, demografi, og mere.
forudsigelse af ejendomspriser
dette ejendomsdatasæt blev bygget til regressionsanalyse, lineær regression, multiple regression og forudsigelsesmodeller. Det inkluderer købsdatoen, husalder, beliggenhed, Afstand til nærmeste MRT-station, og huspris på enhedsområdet.
rødvin kvalitet
fra UCI Machine Learning Repository kan dette datasæt bruges til regressionsmodellering og klassificeringsopgaver. Datasættet indeholder information om de kemiske egenskaber ved forskellige typer vin, og hvordan de forholder sig til den samlede kvalitet.
Køretøjsdatasæt fra CarDekho
et nyttigt datasæt til prisforudsigelse, dette køretøjsdatasæt indeholder oplysninger om biler og motorcykler, der er anført på CarDekho.com. dataene findes i en CSV-fil, der indeholder følgende kolonner: model, år, salgspris, udstillingspris, kørte kilometer, brændstoftype, sælgertype, transmission og antal tidligere ejere.
hvem statistik over forventet levealder
dette datasæt indeholder oplysninger udarbejdet af Verdenssundhedsorganisationen og De Forenede Nationer for at spore faktorer, der påvirker forventet levealder. Dataene indeholder 2938 rækker og 22 kolonner. Kolonnerne inkluderer: land, år, udviklingsstatus, voksen dødelighed, forventet levealder, spædbarnsdødsfald, alkoholforbrug pr.indbygger, landets udgifter til sundhed, immuniseringsdækning, BMI, dødsfald under 5 år, dødsfald på grund af HIV/AIDS, BNP, befolkning, kropstilstand, indkomstinformation og uddannelse.
Ved hjælp af datasættene ovenfor skal du være i stand til at øve forskellige forudsigelige modellerings-og lineære regressionsopgaver. Hvis du leder efter mere åbne datasæt til maskinindlæring, skal du tjekke vores datasætbibliotek og vores relaterede ressourcer nedenfor.
Alternativt, hvis du leder efter en platform til at kommentere dine egne data og oprette brugerdefinerede datasæt, kan du tilmelde dig en gratis prøveversion af vores datanotationsplatform.