波士顿房价数据集下载 scikit-learn=1.2版本后删除【官方给出方案】
发布人:shili8
发布时间:2025-01-11 08:02
阅读次数:0
**波士顿房价数据集下载与处理**
在本文中,我们将介绍如何下载波士顿房价数据集,并使用 scikit-learn1.2 版本进行数据预处理、特征选择和机器学习模型的训练。
### **1. 数据集下载**
首先,我们需要下载波士顿房价数据集。该数据集包含506 个样本,每个样本代表波士顿的一个地区,共有13 个特征。
import pandas as pd# 下载数据集url = " />df = pd.read_csv(url)
### **2. 数据预览**
让我们先看看数据的基本信息:
print(df.head()) # 查看前几行数据print(df.info()) # 查看数据类型和缺失值print(df.describe()) # 查看数据统计信息
### **3. 特征选择**
在本例中,我们将使用 scikit-learn 中的 SelectKBest 类来选择最重要的特征。
from sklearn.feature_selection import SelectKBest, f_regression# 创建 SelectKBest 对象,选择前5 个最相关的特征selector = SelectKBest(score_func=f_regression, k=5) X_selected = selector.fit_transform(df.drop("median_house_value", axis=1), df["median_house_value"])
### **4. 数据标准化**
接下来,我们需要对数据进行标准化,以便于机器学习模型的训练。
from sklearn.preprocessing import StandardScaler# 创建 StandardScaler 对象scaler = StandardScaler() X_scaled = scaler.fit_transform(X_selected) y_scaled = scaler.fit_transform(df["median_house_value"].values.reshape(-1,1))
### **5. 模型训练**
现在,我们可以使用 scikit-learn 中的 LinearRegression 类来训练一个线性回归模型。
from sklearn.linear_model import LinearRegression# 创建 LinearRegression 对象model = LinearRegression() model.fit(X_scaled, y_scaled)
### **6. 模型评估**
最后,我们可以使用 scikit-learn 中的 mean_squared_error 函数来评估模型的性能。
from sklearn.metrics import mean_squared_error#评估模型性能mse = mean_squared_error(y_scaled, model.predict(X_scaled)) print(f"Mean Squared Error: {mse:.2f}")
### **7. 模型预测**
如果我们需要对新的数据进行预测,可以使用以下代码:
new_data = pd.DataFrame({"feature1": [1], "feature2": [2]}) new_data_scaled = scaler.transform(new_data) prediction = model.predict(new_data_scaled) print(f"Prediction: {prediction[0]:.2f}")
以上就是本文的全部内容。通过这些步骤,我们可以下载波士顿房价数据集,进行特征选择和数据标准化,并使用 scikit-learn 中的 LinearRegression 类训练一个线性回归模型。