【 Python 全栈开发 - 人工智能篇 - 43 】KNN算法

发布人：shili8 发布时间：2025-01-10 12:09 阅读次数：0

**Python 全栈开发 - 人工智能篇 -43**

**KNN 算法**

在前面的章节中，我们已经学习了线性回归、决策树等基本的机器学习算法。今天我们要讲的是另一个非常重要的算法——K-近邻算法（KNN）。

### **什么是 KNN 算法？**

KNN 算法是一种监督学习算法，用于分类和回归问题。在这个算法中，我们首先需要选择一个距离度量函数来衡量两个样本之间的相似度，然后根据这些距离值选出最接近的K个邻居。

### **如何使用 KNN 算法？**

1. **数据准备**：首先我们需要准备好我们的训练数据和测试数据。数据应该是 NumPy 数组或 Pandas DataFrame。
2. **选择距离度量函数**：选择一个合适的距离度量函数，如欧式距离、曼哈顿距离等。
3. **选择 K 值**：选择一个合适的 K 值，这个值决定了我们要选取多少个邻居来进行预测。
4. **训练模型**：使用训练数据训练 KNN 模型，得到一个预测函数。
5. **测试模型**：使用测试数据测试 KNN 模型，评估其准确率。

### **KNN 算法的优缺点**

**优点**：

* KNN 算法简单易懂，不需要大量的参数调整。
* KNN 算法可以用于分类和回归问题。
* KNN 算法不需要特征工程，直接使用原始数据。

**缺点**：

* KNN 算法对噪音敏感，容易受到异常值的影响。
* KNN 算法对数据分布要求较高，不适合处理高维度或稀疏数据。
* KNN 算法计算成本较高，尤其是在大规模数据上。

### **KNN 算法的应用场景**

1. **图像分类**：KNN 算法可以用于图像分类问题，如物体识别、文本分类等。
2. **推荐系统**：KNN 算法可以用于推荐系统中，根据用户行为预测用户可能感兴趣的商品或服务。
3. **时间序列预测**：KNN 算法可以用于时间序列预测问题，如股票价格预测、气象预测等。

### **KNN 算法的实现**

import numpy as npclass KNN:
 def __init__(self, k=3):
 self.k = k def fit(self, X, y):
 self.X_train = X self.y_train = y def predict(self, X):
 predictions = []
 for i in range(len(X)):
 distances = np.linalg.norm(X[i] - self.X_train, axis=1)
 indices = np.argsort(distances)[:self.k]
 neighbors = self.y_train[indices]
 prediction = np.bincount(neighbors).argmax()
 predictions.append(prediction)
 return np.array(predictions)

# Example usageX = np.array([[1,2], [3,4], [5,6]])
y = np.array([0,0,1])
knn = KNN(k=2)
knn.fit(X, y)
print(knn.predict(np.array([[7,8]])))

在这个例子中，我们定义了一个 `KNN` 类，用于实现 KNN 算法。我们使用 NumPy 来计算距离和选取邻居。

### **总结**

KNN 算法是一种简单易懂的监督学习算法，可以用于分类和回归问题。虽然它对噪音敏感，但在某些场景下仍然是一个有效的选择。通过理解 KNN 算法的优缺点和应用场景，我们可以更好地使用这个算法来解决实际问题。

### **参考**

* [K-近邻算法]( />* [机器学习中的距离度量函数](

上一条：MySQL数据库操作篇4（内置函数&连接查询&子查询）

下一条：MongoDB文档存储与插入操作详解