实训笔记7.22

发布人：shili8 发布时间：2025-02-12 07:02 阅读次数：0

**实训笔记2023-07-22**

### 一、前言本次实训主要是针对机器学习领域的项目开发，旨在深入了解模型设计、训练过程以及应用场景。以下内容将记录我在此期间所学到的知识和经验。

### 二、数据准备####2.1 数据来源首先，我们需要选择合适的数据集作为我们的实验对象。在本次实训中，我们使用了公开可用的[情感分析数据集]( />

import pandas as pd# 加载数据集data = pd.read_csv('sentiment_data.csv')

####2.2 数据预处理接下来，我们需要对数据进行预处理，包括缺失值的填充、文本特征的提取等。

from sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScaler# 划分训练集和测试集train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

# 对数据进行标准化scaler = StandardScaler()
train_data[['feature1', 'feature2']] = scaler.fit_transform(train_data[['feature1', 'feature2']])
test_data[['feature1', 'feature2']] = scaler.transform(test_data[['feature1', 'feature2']])

### 三、模型设计####3.1 模型选择在本次实训中，我们使用了随机森林算法作为我们的主要模型。

from sklearn.ensemble import RandomForestClassifier# 初始化随机森林模型model = RandomForestClassifier(n_estimators=100, random_state=42)

####3.2 模型参数调优接下来，我们需要对模型的参数进行调优，以获得最佳性能。

from sklearn.model_selection import GridSearchCV# 定义参数搜索空间param_grid = {
 'n_estimators': [50,100,200],
 'max_depth': [None,5,10]
}

# 对模型的参数进行Grid Searchgrid_search = GridSearchCV(model, param_grid, cv=5, scoring='f1_macro')
grid_search.fit(train_data.drop('label', axis=1), train_data['label'])

### 四、模型评估####4.1 模型性能评估在本次实训中，我们使用了F1分数作为我们的主要指标。

from sklearn.metrics import f1_score# 对测试集进行预测y_pred = grid_search.predict(test_data.drop('label', axis=1))

# 计算模型的F1分数f1 = f1_score(test_data['label'], y_pred, average='macro')
print(f'模型的F1分数：{f1:.4f}')

### 五、结论本次实训主要是针对机器学习领域的项目开发，旨在深入了解模型设计、训练过程以及应用场景。通过本次实训，我们可以看到随机森林算法在情感分析任务中的有效性，以及Grid Search的重要性。

# 最终的模型性能评估结果print('最终的模型性能评估结果：')
print(f'F1分数：{f1:.4f}')

以上就是本次实训笔记的内容。希望通过阅读本文，可以对机器学习领域有更深入的理解和认识。

上一条：ARM（Day5）

下一条：windows安装cmake快速教程