初识线性回归(Excel-Python实现)
文章目录
- 前言
- 一、用excel中数据分析功能做线性回归练习
- 1、excel引入数据分析工具
- 2、20组数据线性回归分析
- 3、200组数据线性回归分析
- 4、2000组数据线性回归分析
- 二、jupyter编程实现线性回归练习
- 1、导入excel表
- 2、20组数据线性回归分析
- 3、200组数据线性回归分析
- 4、20000组数据线性回归分析
- 三、用jupyter编程,借助skleran实现线性回归练习
- 1、下载skleran库
- 2、20组数据线性回归分析
- 3、200组数据线性回归分析
- 4、2000组数据线性回归分析
- 四、总结
- 五、参考资料
前言
环境:
1、jupyter编程环境
2、excel数据分析
一、用excel中数据分析功能做线性回归练习
1、excel引入数据分析工具
- 点击文件:
- 在左边弹出的侧边栏选择选项:
- 点击加载项:
- 勾选下图的工具库,点击确定:
- 显示数据分析项就是设置成功:
2、20组数据线性回归分析
-
点击数据分析:
-
选择回归分析:
-
选择数据范围:
-
输出图表:
-
设置最大最小值,间隔单位:
通过调整上面的参数使得图表更加仔细。
- 添加趋势线和显示公式:
接下来的200组数据分析与20000组操作一致,展示结果即可。
3、200组数据线性回归分析
-
选择200组数据:
-
图表:
4、2000组数据线性回归分析
- 选择数据:
- 图表:
二、jupyter编程实现线性回归练习
1、导入excel表
在最开始使用的是通过路径的方式读取excel表数据的数据,报了很多错误,解决了很久也没搞定。然后发现将需要的文件上传到jupyter更加方便。下面的代码使用的是最小二乘法实现的。
-
选择文件后点击Upload上传
-
新建一个文本:
2、20组数据线性回归分析
- 代码:
import pandas as pd
import numpy as np
import math
#准备数据
p=pd.read_excel('weights_heights(身高-体重数据集).xls','weights_heights')
#读取20行数据
p1=p.head(20)
x=p1["Height"]
y=p1["Weight"]
# 平均值
x_mean = np.mean(x)
y_mean = np.mean(y)
#x(或y)列的总数(即n)
xsize = x.size
zi=((x-x_mean)*(y-y_mean)).sum()
mu=((x-x_mean)*(x-x_mean)).sum()
n=((y-y_mean)*(y-y_mean)).sum()
# 参数a b
a = zi / mu
b = y_mean - a * x_mean
#相关系数R的平方
m=((zi/math.sqrt(mu*n))**2)
# 这里对参数保留4位有效数字
a = np.around(a,decimals=4)
b = np.around(b,decimals=4)
m = np.around(m,decimals=4)
print(f'回归线方程:y = {a}x +({b})')
print(f'相关回归系数为{m}')
#借助第三方库skleran画出拟合曲线
y1 = a*x + b
plt.scatter(x,y)
plt.plot(x,y1,c='r')
- 图表:
回归线方程:y = 4.128x +(-152.2338)
相关回归系数:0.3254
3、200组数据线性回归分析
- 修改为200的数据:
p1=p.head(200)
- 图表:
回归线方程:y = 3.4317x +(-105.959)
相关回归系数为:0.31
4、20000组数据线性回归分析
- 修改为2000的数据:
p1=p.head(2000)
- 图表:
回归线方程:y = 2.9555x +(-73.6608)
相关回归系数为:0.2483
三、用jupyter编程,借助skleran实现线性回归练习
1、下载skleran库
- 在单元格输入下面的命令:
!pip install scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple
2、20组数据线性回归分析
- 代码:
# 导入所需的模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
p=pd.read_excel('weights_heights.xls','weights_heights')
#读取数据行数
p1=p.head(20)
x=p1["Height"]
y=p1["Weight"]
# 数据处理
# sklearn 拟合输入输出一般都是二维数组,这里将一维转换为二维。
y = np.array(y).reshape(-1, 1)
x = np.array(x).reshape(-1, 1)
# 拟合
reg = LinearRegression()
reg.fit(x,y)
a = reg.coef_[0][0] # 系数
b = reg.intercept_[0] # 截距
print('拟合的方程为:Y = %.4fX + (%.4f)' % (a, b))
c=reg.score(x,y) # 相关系数
print(f'相关回归系数为%.4f'%c)
# 可视化
prediction = reg.predict(y) # 根据高度,按照拟合的曲线预测温度值
plt.xlabel('身高')
plt.ylabel('体重')
plt.scatter(x,y)
y1 = a*x + b
plt.plot(x,y1,c='r')
- 效果:
拟合的方程为:Y = 4.1280X + (-152.2338)
相关回归系数为:0.3254
3、200组数据线性回归分析
-修改为200的数据:
p1=p.head(200)
- 图表:
拟合的方程为:Y = 3.4317X + (-105.9590)
相关回归系数为:0.3100
4、2000组数据线性回归分析
- 修改为2000的数据:
p1=p.head(2000)
- 图表:
拟合的方程为:Y = 2.9555X + (-73.6608)
相关回归系数为:0.2483
四、总结
这里总共使用了三种方法对数据进行回归计算,对于excel的回归方法更为直观,选定数据直接便可出结果。然而,使用jupyter进行编程的话对公式的理解就较为深刻,使用sklearn库的话使用内置的库函数则相对编程的方法较为方便,不用自己编程实现公式。
五、参考资料
Excel和jupyter实现数据的线性回归
初识线性回归