線形回帰のための10個のオープンデータセット
すべてのデータサイエンティストは、研究やキャリアのある時点で線形回帰タスクと予測モデリングプロセスを実行する必要があります。 このトピックの詳細やサンプルの割り当てを完了したい方のために、この記事では、今日ダウンロードできるオープン線形回帰データセットを紹介します。 さらに、このリストのデータセットの一部には、データを使用して完了するサンプル回帰タスクが含まれています。
機械学習のための線形回帰データセット
がん線形回帰
このデータセットには、次のデータが含まれています。cancer.gov 米国での癌による死亡について。 データセットに加えて、著者は、データのソースと準備方法、探索的分析、モデル選択、診断、および解釈に関する完全なウォークスルーが含まれています。
CDCデータ: 栄養、身体活動、肥満
CDCの行動危険因子サーベイランスシステムから、このデータセットには、身体活動、体重、平均成人の食事に関する情報が含まれています。
回帰のための魚市場データセット
重線形回帰と多変量分析のために構築された魚市場データセットには、市場販売における一般的な魚種 データセットには、魚種、体重、長さ、高さ、幅が含まれます。
医療保険費
このデータセットは、Brett Lantzの著書Machine Learning with Rに触発されました。 データには、医療情報と健康保険会社が請求する費用が含まれています。 年齢、性別、BMI、子供、喫煙者、地域、保険料:それは、データと次の列の1338行が含まれています。
New York Stock Exchange Dataset
テクニカル分析のためのリソースとして作成されたこのデータセットには、ニューヨーク株式市場の履歴データが含まれています。 データセットは四つのCSVファイルで提供されます: 価格、価格-分割調整、有価証券、およびファンダメンタルズ。 このデータを使用して、予測モデリング、ローリング線形回帰などを試すことができます。
OLS回帰チャレンジは、米国の郡のがん死亡率を予測することを課題とします。
OLS回帰チャレンジは、米国の郡のがん死亡率を予測す データセットには、次のデータが含まれていますcancer.gov,clinicaltrials.gov、およびアメリカのコミュニティ調査。 死亡率、報告された症例、米国の郡名、郡あたりの収入、人口、人口統計、および多くの:それはCSV形式であり、米国の癌に関する次の情報が含まれています。
不動産価格予測
この不動産データセットは、回帰分析、線形回帰、重回帰、および予測モデルのために構築されました。 これは、購入日、家の年齢、場所、最寄りのMRT駅までの距離、および単位面積の住宅価格が含まれています。
赤ワインの品質
UCI Machine Learningリポジトリから、このデータセットは回帰モデリングと分類タ データセットには、さまざまな種類のワインの化学的性質と、それらが全体的な品質にどのように関連するかについての情報が含まれています。
Cardekhoから車両データセット
価格予測のための有用なデータセットは、この車両データセットは、上に記載されている車やオートバイに関する情報が含CarDekho.comモデル、年、販売価格、ショールーム価格、走行キロ、燃料タイプ、販売者タイプ、送信、および以前の所有者の数:データは、次の列を含むCSVファイルにあります。
WHO平均寿命に関する統計
このデータセットには、平均寿命に影響を与える要因を追跡するために世界保健機関と国連が作成した情報が含 データには、2938行と22列が含まれています。 列が含まれます:国、年、開発状況、成人死亡率、平均余命、乳児死亡、一人当たりのアルコール消費量、健康上の国の支出、予防接種カバレッジ、BMI、5歳未満の死亡、HIV/AIDS、GDP、人口、体の状態、収入情報、および教育に起因する死亡。
上記のデータセットを使用すると、さまざまな予測モデリングと線形回帰タスクを練習できるはずです。 機械学習のためのよりオープンなデータセットをお探しの場合は、datasetsライブラリと以下の関連リソースをチェックしてください。
また、独自のデータに注釈を付けたり、カスタムデータセットを作成したりするためのプラットフォームを探している場合は、データ注釈プラットフォームの無料トライアルにサインアップしてください。