当前位置:实例文章 » 其他实例» [文章]波士顿房价数据集下载 scikit-learn=1.2版本后删除【官方给出方案】

波士顿房价数据集下载 scikit-learn=1.2版本后删除【官方给出方案】

发布人:shili8 发布时间:2025-01-11 08:02 阅读次数:0

**波士顿房价数据集下载与处理**

在本文中,我们将介绍如何下载波士顿房价数据集,并使用 scikit-learn1.2 版本进行数据预处理、特征选择和机器学习模型的训练。

### **1. 数据集下载**

首先,我们需要下载波士顿房价数据集。该数据集包含506 个样本,每个样本代表波士顿的一个地区,共有13 个特征。

import pandas as pd# 下载数据集url = " />df = pd.read_csv(url)


### **2. 数据预览**

让我们先看看数据的基本信息:

print(df.head()) # 查看前几行数据print(df.info()) # 查看数据类型和缺失值print(df.describe()) # 查看数据统计信息


### **3. 特征选择**

在本例中,我们将使用 scikit-learn 中的 SelectKBest 类来选择最重要的特征。

from sklearn.feature_selection import SelectKBest, f_regression# 创建 SelectKBest 对象,选择前5 个最相关的特征selector = SelectKBest(score_func=f_regression, k=5)
X_selected = selector.fit_transform(df.drop("median_house_value", axis=1), df["median_house_value"])


### **4. 数据标准化**

接下来,我们需要对数据进行标准化,以便于机器学习模型的训练。

from sklearn.preprocessing import StandardScaler# 创建 StandardScaler 对象scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_selected)
y_scaled = scaler.fit_transform(df["median_house_value"].values.reshape(-1,1))


### **5. 模型训练**

现在,我们可以使用 scikit-learn 中的 LinearRegression 类来训练一个线性回归模型。

from sklearn.linear_model import LinearRegression# 创建 LinearRegression 对象model = LinearRegression()
model.fit(X_scaled, y_scaled)


### **6. 模型评估**

最后,我们可以使用 scikit-learn 中的 mean_squared_error 函数来评估模型的性能。

from sklearn.metrics import mean_squared_error#评估模型性能mse = mean_squared_error(y_scaled, model.predict(X_scaled))
print(f"Mean Squared Error: {mse:.2f}")


### **7. 模型预测**

如果我们需要对新的数据进行预测,可以使用以下代码:

new_data = pd.DataFrame({"feature1": [1], "feature2": [2]})
new_data_scaled = scaler.transform(new_data)
prediction = model.predict(new_data_scaled)
print(f"Prediction: {prediction[0]:.2f}")


以上就是本文的全部内容。通过这些步骤,我们可以下载波士顿房价数据集,进行特征选择和数据标准化,并使用 scikit-learn 中的 LinearRegression 类训练一个线性回归模型。

其他信息

其他资源

Top