协方差是统计学中使用的一种数值,用于描述两个变量间的线性关系。两个变量的协方差越大,它们在一系列数据点范围内的取值所呈现出的趋势就越相近(换句话说,两个变量的曲线距离彼此较近)。一般来说,两组数值x和y的协方差可以用这个公式计算:1/(n -1)Σ(x- x)(y- y)。其中n为样本量,x是每个x点的取值,x为x的平均值,y和y也类似。

01 把你的数据整理成一系列(x,y)取值点。你只需要两个变量x和y的一系列取值就可以计算出方差。如果你使用的是一个图上的数据点,你的数据应该来自图上的一系列(x,y)交点。或者,则需要通过数学方法找出两个变量的一一对应值。记下相对应的x/y数据对的数量。这就是“n”,即样本大小,计算方差时需要用到。举个例子,假设我们开了一家熟食店,需要确定所发出的优惠券是否会对销量产生影响。我们可以将x定义为“在优惠日发放出去的优惠券数量”,将y定义为“当日销量”。为了方便起见,我们使用上图中的表格作为参考,即,第一天我们发放出x=1优惠券,卖出y=8,第二天发放x=3优惠券,卖出y=6,等等。
02 计算x的平均值。在得到一系列x/y取值之后,剩下的工作就不多了。首先计算x的平均值,将所有的x值相加再除以样本量(进一步参考我们关于计算平均值的文章)。在我们的例子中,我们需要将上表中“x”栏中的数值相加,再除以数值的个数。计算1+3+2+5…,最终得到44。再除以9,得到44/9 =4.89就是x的平均值。见下:1 + 3 + 2 + 5 + 8 + 7 + 12 + 2 + 4 = 4444/9 =4.89
03 计算y的平均值。下一步是计算y的平均值,和计算x的平均值方法一样:把y的值相加,除以样本量。在我们的例子中,应该计算8+6+9+4...得到49。除以样本量,得到49/9 =5.44即为y的平均值。见下:8 + 6 + 9 + 4 + 3 + 3 + 2 + 7 + 7 = 4949/9 =5.44
04 将计算出的值代入公式中:1/(n-1)Σ(x- x)(y- y)。注意公式中的sigma(Σ)符号,意思是每个x值都要减去平均值,再加起来(y也一样)。计算量比较大,所以需要非常仔细,避免出错。在我们的例子中,需要如下计算:1/(n -1)Σ(x- x)(y- y)(1/8)(((1 - 4.89)+(3 - 4.89)+(2 - 4.89)+(5 - 4.89)+(8 - 4.89)+(7 - 4.89)+(12 - 4.89)+(2 - 4.89)+(4 - 4.89))((8 - 5.44)+(6 - 5.44)+(9 - 5.44)+(4 - 5.44)+(3 - 5.44)+(3 - 5.44)+(2 - 5.44)+(7 - 5.44)+(7 - 5.44))(1/8)((-0.01)((8 - 5.44)+(6 - 5.44)+(9 - 5.44)+(4 - 5.44)+(3 - 5.44)+(3 - 5.44)+(2 - 5.44)+(7 - 5.44)+(7 - 5.44))(1/8)(-0.01)(0.04) =0.00005下文会提到,我们的答案0.00005非常接近0,意味着发放出的优惠券数量对熟食店的销量在实质上没有影响。
阅读关于散点图的文章和计算相关系数的文章,可以得到相关信息。
协方差方程往往用于对比股票——投资者希望知道某两只股票会不会随着彼此波动。要回答这个问题,你只需要一张对比两只股票在一段时间内每日走势的表,见下:<br/><br/>A公司(x): (1.6 + 1.9 + 2.1 + 3.2 + 0.5 + 0.4 + 0.6)/7 = 1.47<br/>B公司(y): (2.0 + 2.4 + 2.6 + 3.6 + 0.9 + 0.8 + 1.0)/7 = 1.9<br/><br/>(1/n-1)(Σ(x- x)(y- y)<br/><br/>(1/6)(((1.6 - 1.47)+(1.9 - 1.47)+(2.1 - 1.47)+(3.2 - 1.47)+(0.5 - 1.47)+(0.4 - 1.47)+(0.6 - 1.47))((2.0 - 1.78)+(2.4 - 1.78)+(2.6 - 1.78)+(3.6 - 1.78)+(0.9 - 1.78)+(0.8 - 1.78)+(1.0 - 1.78))<br/><br/>(1/6)((0.01)(0.84))<br/><br/>(1/6)(0.084) =0.14。

