1. 方差: 组内差异 ,还记一般为一维数据
标准差(均方差、初中均方根差)【总方差】: 反映检测值与样本平均值间的公式偏差 ,为有偏估计。还记
在实际情况中,总体均值很难得到 ,公式往往通过抽样来计算,还记于是初中有样本方差S(无偏估计)
def cal_vars(X):n """ 计算方差, 标准差 """n m = sum(X)/len(X)n varX = sum(map(lambda i: abs(i - m)**2, X))/len(X)n stdX = math.sqrt(varX)n n return varX, stdXn n n### 手动计算nX = np.arange(10)nv, s = cal_vars(X)nprint(f"方差1: { v}, 标准差1 :{ s}" )nn### numpy 计算nvarX = np.var(X)nstdX = np.std(X, ddof=0)nnprint(f"方差2 : { varX}, 标准差2 :{ stdX}" )nnprint(f"方差3: { varX}, 标准差3 :{ math.sqrt(varX)}" )nn''n方差1: 8.25, 标准差1:2.8722813232690143n方差2: 8.25, 标准差2:2.8722813232690143n方差3: 8.25, 标准差3:2.8722813232690143n''
2. 数学期望E(xi)
数学期望 :离散型随机变量 xi 和对应概率的乘积。公式如下:
应用场景
3.协方差:组间差异,描述多维数据
概率论和统计学中用于衡量两个变量的还记总体误差。而方差是初中协方差的一种特殊情况,即当两个变量是公式相同的情况。
X = np.arange(5)nY = np.array([10, 12, 14, 16, 18])nnplt.figure(figsize=(12,6))nplt.subplot(131) ,plt.bar(X, X), plt.title("X")nplt.subplot(132) ,plt.bar(Y,Y), plt.title("Y")nplt.subplot(133) ,plt.plot(X,Y, 'o:'), plt.title("X vs Y")nncovX = np.cov(X, ddof=0)ncovY = np.cov(Y, ddof=0)ncovXY = np.cov(X,Y, ddof=0)nnprint(f"X协方差:{ covX}, Y协方差 :{ covY}, XY斜偏差: { covXY}")n##n方差:2.0,协方差:2.5nX协方差 :2.0,初中 Y协方差 :8.0, XY协偏差: 4.0
X, Y 协方差为4.0 ,是公式正相关 ,从上面的图像我们也可以看到像x,y 变化是一致的 。
注意 :numpy cov 默认自由度为1.
协方差矩阵 :[[2. 4.] [4. 8.]], 既然协方差反应了相关性,那我们怎么衡量呢?皮尔逊相关性 , 很简单 ,用协方差除以标准差即可,就是协方差归一化的过程:
4.标准误:衡量抽样误差,越小代表抽样数据越能反应总体的特征