【基础理论】描述性统计基本概念
发布人:shili8
发布时间:2024-12-26 15:49
阅读次数:0
**描述性统计基本概念**
描述性统计是一种用于概括数据分布的统计方法,它通过计算数据的集中趋势、离散度等指标来描述数据的基本特征。以下是描述性统计的基本概念:
###1. 中位数(Median)
中位数是数据集中的中间值,通常表示为Md或M。它是数据集按顺序排列后,位于中间位置的值。如果数据集有奇数个值,则中位数就是中间值;如果数据集有偶数个值,则中位数是两个中间值的平均值。
import numpy as np#生成一个随机数组data = np.random.randint(1,100, size=10) # 计算中位数median_value = np.median(data) print("中位数:", median_value)
###2. 平均值(Mean)
平均值是数据集中的所有值的总和除以数据点的数量。它通常表示为M或x?。
import numpy as np#生成一个随机数组data = np.random.randint(1,100, size=10) # 计算平均值mean_value = np.mean(data) print("平均值:", mean_value)
###3. 方差(Variance)
方差是数据点与平均值之间的平方差之和除以数据点的数量。它通常表示为σ2或s2。
import numpy as np#生成一个随机数组data = np.random.randint(1,100, size=10) # 计算方差variance_value = np.var(data) print("方差:", variance_value)
###4. 标准差(Standard Deviation)
标准差是数据点与平均值之间的平方差之和的平方根。它通常表示为σ或s。
import numpy as np#生成一个随机数组data = np.random.randint(1,100, size=10) # 计算标准差std_dev_value = np.std(data) print("标准差:", std_dev_value)
###5. 四分位数(Quartiles)
四分位数是数据集中的四个中间值,通常表示为Q1、Q2、Q3和Q4。其中,Q1是下四分位数,Q2是中位数,Q3是上四分位数。
import numpy as np#生成一个随机数组data = np.random.randint(1,100, size=10) # 计算四分位数q1_value = np.percentile(data,25) q2_value = np.median(data) q3_value = np.percentile(data,75) print("下四分位数:", q1_value) print("中位数:", q2_value) print("上四分位数:", q3_value)
###6. 最小值和最大值最小值是数据集中的最小值,通常表示为Min或min。最大值是数据集中的最大值,通常表示为Max或max。
import numpy as np#生成一个随机数组data = np.random.randint(1,100, size=10) # 计算最小值和最大值min_value = np.min(data) max_value = np.max(data) print("最小值:", min_value) print("最大值:", max_value)
以上是描述性统计的基本概念,包括中位数、平均值、方差、标准差、四分位数和最小值/最大值。这些指标可以帮助我们了解数据的分布特征,并且在实际应用中非常有用。