开始之前,先解释一下一些基本的术语,比如方差(variance)标准差(standard deviation)正态分布(normal distribution)估计(estimate)准确率(accuracy)精度(precision)均值(mean)期望(expected value)随机变量(random variable)

假设大部分读者已经了解基本的统计知识。但是在开始之前,还是简单的介绍一下理解卡尔曼滤波的基本概念。如果你熟悉这些内容,可以跳过此部分。

均值和期望

均值和期望非常相似,但是却并不相同。

比如,有5个硬币,2个5分和3个10分,那么可以很容易计算出这些硬币的平均值:

$$ V_{\text {mean}}=\frac{1}{N} \sum_{n=1}^{N} V_{n}=\frac{1}{5}(5+5+10+10+10)=8 $$

由于系统状态(硬币值)是确定的,没有隐藏信息,而且使用了所有的信息计算平均值。因此,上述结果不能定义为期望

假设测量了一个人的5次体重信息:79.8kg, 80kg, 80.1kg, 79.8kg, 和 80.2kg。

由于秤测量时存在随机测量误差,所以每次测量结果都不同。因为存在隐含变量(Hidden Variable),我们不知道体重的真实值究竟是多少。但是可以通过计算测量的平均值估计体重。

$$ W=\frac{1}{N} \sum_{n=1}^{N} W_{n}=\frac{1}{5}(79.8+80+80.1+79.8+80.2)=79.98 k g $$

估计的输出就是体重的期望均值通常通过 $\mu$ 表示,期望通常通过 $E$ 表示。

方差和标准差

方差是衡量数据集偏离平均值的程度。标准差方差的均方根,通常通过 $\sigma$ 表示,而方差通过 $\sigma^2$ 表示。

比如,我们想对比两个篮球队的身高,下面是两个篮球队的队员的身高和平均值信息:

$$ \begin{aligned}\begin{array}{lllllll} & \text { Player 1 } & \text { Player 2 } & \text { Player 3 } & \text { Player 4 } & \text { Player 5 } & \text { Mean } \\hline \text { Team A } & 1.89 \mathrm{m} & 2.1 \mathrm{m} & 1.75 \mathrm{m} & 1.98 \mathrm{m} & 1.85 \mathrm{m} & 1.914 \mathrm{m} \\hline \text { Team B } & 1.94 \mathrm{m} & 1.9 \mathrm{m} & 1.97 \mathrm{m} & 1.89 \mathrm{m} & 1.87 \mathrm{m} & 1.914 \mathrm{m}\end{array}\end{aligned} $$

由上可知,两个队的平均身高相同。下面看一下各自的身高方差。因为方差衡量的是数据集的离散程度,我们需要知道数据集偏离均值的程度。我们可以通过将每个值减去均值计算每个值到均值的距离。

我们使用 $x$ 表示身高,$\mu$ 表示均值,每个变量到均值的距离为:

$$ x_{n}-\mu=x_{n}-1.914 m $$

下表表示的是每个变量到均值的距离:

$$ \begin{aligned}\begin{array}{llllll} & \text { Player 1 } & \text { Player 2 } & \text { Player 3 } & \text { Player 4 } & \text { Player 5 } \\hline \text { TeamA } & -0.024 \mathrm{m} & 0.186 \mathrm{m} & 0.164 \mathrm{m} & 0.066 \mathrm{m} & -0.064 \mathrm{m} \\hline \text { Team B } & 0.026 \mathrm{m} & .0 .014 \mathrm{m} & 0.056 \mathrm{m} & 0.024 \mathrm{m} & -0.044 \mathrm{m}\end{array}\end{aligned} $$

有些值是负的,为了消除负值的影响,对每个值求平方:

$$ \left(x_{n}-\mu\right)^{2}=\left(x_{n}-1.914 m\right)^{2} $$

下表表示的是每个变量到均值的距离的平方:

$$ \begin{aligned}&\begin{array}{llllll} & \text { Player 1 } & \text { Player 2 } & \text { Player 3 } & \text { Player 4 } & \text { Player 5 } \\hline \text { Team A } & 0.000576 \mathrm{m}^{2} & 0.034596 \mathrm{m}^{2} & 0.026896 \mathrm{m}^{2} & 0.004356 \mathrm{m}^{2} & 0.004096 \mathrm{m}^{2} \\hline \text { Team B } & 0.000676 \mathrm{m}^{2} & 0.000196 \mathrm{m}^{2} & 0.003136 \mathrm{m}^{2} & 0.000576 \mathrm{m}^{2} & 0.001936 \mathrm{m}^{2}\end{array}\end{aligned} $$

为了计算数据集的方差,需要计算所有变量到均值的距离的平方的均值:

$$ \sigma^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2} $$

第一队的方差为:

$$ \sigma_{A}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}=\frac{1}{5}(0.000576+0.034596+0.026896+0.004356+0.004096)=0.014 m^{2} $$

第二队的方差为:

$$ \sigma_{B}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}=\frac{1}{5}(0.000676+0.000196+0.003136+0.000576+0.001936)=0.0013 m^{2} $$

尽管两个队身高的均值相同,但是第一队的身高的离散程度比第二队要大,表明:第一队的人员身高更分散,更适合分配到不同的位置,而第二队身高相近,可能不利于站位的分配。

方差的单位是平方,所以使用标准差更方便对比。标准差是方差的均方根。

$$ \sigma=\sqrt{\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}} $$

第一队的标准差是0.12m,第二队的标准差是0.036m。

现在,假设我们要计算所有高中所有篮球队员身高的方差均值。我们就需要收集所有高中所有篮球队员的身高数据,这是相当困难的。

但是,我们可以从大量数据集中选择一部分数据计算方差均值,估计所有数据的方差均值。对于准确估计队员身高的方差均值来说,选择100个篮球队员的信息就足够了。

然而在估计方差时,方差的计算方式有所不同。使用$N - 1$ 代替 $N$ 进行归一化计算:

$$ \sigma^{2}=\frac{1}{N-1} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2} $$

数学证明可以参考:Here

正态分布

很多自然现象都遵循**正态分布(Normal Distribution)。比如上面提到的篮球队员的身高,如果从从大量的数据集中随机选择一定的数据,然后绘制身高出现的频次,可以得到一个钟形曲线,如下图所示:

如图所示,钟形曲线是关于均值对称的。均值周围的数据出现的频次比两边的值出现的频次更高。

高度的标准差等于0.2 m。68.26%的值出现在均值的一个标准差范围内,即68.26%的值在1.7 m到2.1 m之间,下图绿色区域。

95.44%的值出现在均值的两个标准差范围内,99.74%的值出现的均值的三个标准差范围内。

正态分布也称为高斯分布,通常通过如下等式表示:

$$ f\left(x ; \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}} $$

高斯曲线也称为正态分布概率密度函数(Probability Density Function,PDF)

通常,测量误差服从正态分布。卡尔曼滤波假设测量误差服从正态分布

随机变量

一个数学家、物理学家和工程师的车速为60 km/h。警察拦停了他们,并利用激光测速仪进行了测速,测量结果为 70 km/h。测速仪的测量结果服从正态分布,且方差为 5 km/h。

测速仪的测量结果就是随机变量。我们不知道准确的速度,速度的期望是70 km/h。

数学家说:速度可以是负无穷到正无穷,但是速度在65到75 km/h的概率为68.6%。

物理学家说:速度是任何大于负的光速且小于正的光速的值。

工程师说:速度可以是任何大于0小于140 km/h的值。因为移动方向是向前的,而且车速最高140 km/h。

警察说车速是70 km/h,并给了一张罚单。

随机变量可以是连续的或离散的:

  • 电池的消耗时间或马拉松的时间是连续随机变量;
  • 网站访问者或班级的学生数是离散的。

估计、准确率和精度

估计(estimate) 是对系统隐藏状态的评估。对于观测者来说,飞机的真正位置就是隐藏变量。我们可以使用传感器,比如雷达,估计飞机的位置。使用多传感器和高级的估计和追踪算法,比如卡尔曼滤波,可以显著改善估计的结果。每个测量或计算参数都是估计值。

准确率(accuracy) 表示测量和真实值间的距离。

精度(precision) 描述的是相同参数下测量的离散程度。准确率精度估计的基础。

下图很好的解释了准确率精度

高精度系统的测量具有低方差,即低不确定性,然而低精度系统的测量具有高方差,即高不确定性。方差是由随机测量误差所产生。

低准确率系统称为有偏系统,因为其测量具有系统性误差(systematic error)

通过平均或平滑测量可以显著降低方差的影响。比如,如果使用具有随机测量误差的温度计测量温度,我们可以进行多次测量,然后求平均。因为误差是随机的,一些测量结果可能大于真值,其他结果可能低于真值。那么,估计可能就更接近真值。测量越多,那么估计可能就越接近真值。

另一方面,如果温度计是有偏差的,那么估计也具有恒定的系统误差

本手册中的所有示例都假设是**无偏系统(unbiased systems)

总结

下图展示了测量的统计信息:

测量是随机变量,通过概率密度函数进行描述。随机变量的期望是测量的均值。测量均值和真值间的偏差测量准确率,也称为偏差系统测量误差。分布的分散程度表示测量的精度,也称为测量噪声随机测量误差测量不确定性

参考链接

  1. https://www.kalmanfilter.net/background.html

更新记录

2020.04.18 init