状态估计中的概率基础

avatar
作者
筋斗云
阅读量:0

文章目录

1 概率密度函数 PDF

请注意公式⾥⾯的 p(x) 是概率密度(probability density)⽽不是概率(probability)。
∫ a b p ( x ) d x = 1 \int_a^b p(x) \mathrm{d} x=1 abp(x)dx=1

PDF的积分为概率:
Pr ⁡ ( c ≤ x ≤ d ) = ∫ c d p ( x ) d x \operatorname{Pr}(c \leq x \leq d)=\int_c^d p(x) \mathrm{d} x Pr(cxd)=cdp(x)dx

条件概率, x ∈ [ a , b ] x \in [a, b] x[a,b] y ∈ [ c , d ] y \in [c, d] y[c,d]的条件下的PDF如下
( ∀ y ) ∫ a b p ( x ∣ y ) d x = 1 (\forall y) \quad \int_a^b p(x \mid y) \mathrm{d} x=1 (y)abp(xy)dx=1

x, y 联合概率密度函数(joint probability densities)
p ( x , y ) p(\boldsymbol{x}, \boldsymbol{y}) p(x,y)

2 贝叶斯推断 Bayesian Inference

2.1 贝叶斯公式 Bayes’ Rule

关键的就是两条公式
p ( x , y ) = p ( x ∣ y ) p ( y ) = p ( y ∣ x ) p ( x ) p(\boldsymbol{x}, \boldsymbol{y})=p(\boldsymbol{x} \mid \boldsymbol{y}) p(\boldsymbol{y})=p(\boldsymbol{y} \mid \boldsymbol{x}) p(\boldsymbol{x}) p(x,y)=p(xy)p(y)=p(yx)p(x)

变形之后就是贝叶斯公式,这条公式在状态估计中会被反复使用,是最核心的公式,公式本身没有任何假设。
p ( x ∣ y ) = p ( y ∣ x ) p ( x ) p ( y ) p(\boldsymbol{x} \mid \boldsymbol{y})=\frac{p(\boldsymbol{y} \mid \boldsymbol{x}) p(\boldsymbol{x})}{p(\boldsymbol{y})} p(xy)=p(y)p(yx)p(x)

关于这个公式,每个PDF有个通俗的叫法

  • P(x|y) Posteriori PDF
  • P(y|x) 传感器观测模型,Measurement PDF,
  • P(x) Prior PDF

贝叶斯公式的直观理解:使用先验PDF和观测PDF来推断后验的PDF,有了后验的PDF我们就知道当前应该选择的最佳估计值,以及估计值对应的不确定程度(方差)。

2.2 贝叶斯推断Bayesian Inference

  • 输入:先验P(x), 观测P(y|x)
  • 输出:后验P(x|y)

将 P(y) 展开得到
p ( x ∣ y ) = p ( y ∣ x ) p ( x ) p ( y ) = p ( y ∣ x ) p ( x ) ∫ p ( y ∣ x ) p ( x ) d x p(\boldsymbol{x} \mid \boldsymbol{y})= \frac{p(\boldsymbol{y} \mid \boldsymbol{x}) p(\boldsymbol{x})}{p(\boldsymbol{y})} =\frac{p(\boldsymbol{y} \mid \boldsymbol{x}) p(\boldsymbol{x})}{\int p(\boldsymbol{y} \mid \boldsymbol{x}) p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x}} p(xy)=p(y)p(yx)p(x)=p(yx)p(x)dxp(yx)p(x)

P(y)的计算方式就是把x通过积分来边缘化掉的。关于边缘化可以参看文章

2.3 PDF连续状态的特性:矩 Moments

  • 一阶矩:expectation/mean,期望
    μ = E [ x ] = ∫ x p ( x ) d x \boldsymbol{\mu}=E[\boldsymbol{x}]=\int \boldsymbol{x} p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} μ=E[x]=xp(x)dx
  • 二阶矩:covariance 协方差矩阵
    Σ = E [ ( x − μ ) ( x − μ ) T ] \boldsymbol{\Sigma}=E\left[(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{\mathrm{T}}\right] Σ=E[(xμ)(xμ)T]
  • 三阶矩:skewness 偏度
  • 四阶矩:kurtosis 峰度

Moments的期望和方差是一个PDF的关键特征,理论上可以定义无限阶次矩,通过无限阶次矩来恢复PDF。
通常在状态估计中我们只用期望和协方差来近似描述一个PDF最佳估计值所在的点。
特别的对于高斯分布,只是用期望和协方差便可以完整地描述整个PDF。

2.4 PDF离散状态的描述:均值和方差

对应于连续状态PDF的期望和协方差
μ meas  = 1 N ∑ i = 1 N x i ,  meas  Σ meas  = 1 N − 1 ∑ i = 1 N ( x i ,  meas  − μ meas  ) ( x i , meas  − μ meas  ) T \begin{aligned} \boldsymbol{\mu}_{\text {meas }} & =\frac{1}{N} \sum_{i=1}^N \boldsymbol{x}_{i, \text { meas }} \\ \boldsymbol{\Sigma}_{\text {meas }} & =\frac{1}{N-1} \sum_{i=1}^N\left(\boldsymbol{x}_{i, \text { meas }}-\boldsymbol{\mu}_{\text {meas }}\right)\left(\boldsymbol{x}_{i \text {, meas }}-\boldsymbol{\mu}_{\text {meas }}\right)^{\mathrm{T}} \end{aligned} μmeas Σmeas =N1i=1Nxi, meas =N11i=1N(xi, meas μmeas )(xi, meas μmeas )T

2.5 归一化积:融合对同⼀个随机变量的多次估计

  • 输入: P(x|y1), P(x|y2), P(x|y3), …, P(x|yn)
  • 输出:P(x|y1, y2, y3, …, yn)
  • 假设:y1,y2,y3, …, yn相互独立

在这里插入图片描述

根据贝叶斯理论,归⼀化积可⽤于融合对同⼀个随机变量的多次估计。
x为估计变量,y1,y2是两次独立的测量,
p ( y 1 , y 2 ∣ x ) = p ( y 1 ∣ x ) p ( y 2 ∣ x ) = p ( x ∣ y 1 ) p ( y 1 ) p ( x ) p ( x ∣ y 2 ) p ( y 2 ) p ( x ) p\left(\boldsymbol{y}_1, \boldsymbol{y}_2 \mid \boldsymbol{x}\right)=p\left(\boldsymbol{y}_1 \mid \boldsymbol{x}\right) p\left(\boldsymbol{y}_2 \mid \boldsymbol{x}\right)=\frac{p\left(\boldsymbol{x} \mid \boldsymbol{y}_1\right) p\left(\boldsymbol{y}_1\right)}{p(\boldsymbol{x})} \frac{p\left(\boldsymbol{x} \mid \boldsymbol{y}_2\right) p\left(\boldsymbol{y}_2\right)}{p(\boldsymbol{x})} p(y1,y2x)=p(y1x)p(y2x)=p(x)p(xy1)p(y1)p(x)p(xy2)p(y2)

整理得到
p ( x ∣ y 1 , y 2 ) = η p ( x ∣ y 1 ) p ( x ∣ y 2 ) η = p ( y 1 ) p ( y 2 ) p ( y 1 , y 2 ) p ( x ) \begin{gathered} p\left(\boldsymbol{x} \mid \boldsymbol{y}_1, \boldsymbol{y}_2\right)=\eta p\left(\boldsymbol{x} \mid \boldsymbol{y}_1\right) p\left(\boldsymbol{x} \mid \boldsymbol{y}_2\right) \\ \eta=\frac{p\left(\boldsymbol{y}_1\right) p\left(\boldsymbol{y}_2\right)}{p\left(\boldsymbol{y}_1, \boldsymbol{y}_2\right) p(\boldsymbol{x})} \end{gathered} p(xy1,y2)=ηp(xy1)p(xy2)η=p(y1,y2)p(x)p(y1)p(y2)

3 高斯分布

高斯分布是一个理想的分布,在真实世界中,模型往往是非线性非高斯的,为了方便处理,我们经常在使用高斯分布来近似表示真实世界中的PDF的某个点。

3.1 Gaussian PDF

p ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − 1 2 ( x − μ ) 2 σ 2 ) p\left(x \mid \mu, \sigma^2\right)=\frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left(-\frac{1}{2} \frac{(x-\mu)^2}{\sigma^2}\right) p(xμ,σ2)=2πσ21exp(21σ2(xμ)2)
p ( x ∣ μ , Σ ) = 1 ( 2 π ) N det ⁡ Σ exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(\boldsymbol{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma})=\frac{1}{\sqrt{(2 \pi)^N \operatorname{det} \boldsymbol{\Sigma}}} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right) p(xμ,Σ)=(2π)NdetΣ1exp(21(xμ)TΣ1(xμ))

习惯上,我们也将正态分布(即⾼斯分布)记为:
x ∼ N ( μ , Σ ) \boldsymbol{x} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma}) xN(μ,Σ)

标准正态分布(standard normally distributed):
x ∼ N ( 0 , 1 ) \boldsymbol{x} \sim \mathcal{N}(\mathbf{0}, \mathbf{1}) xN(0,1)

3.2 高斯推断(贝叶斯推断在高斯分布的一次实现)

p ( x , y ) = p ( x ∣ y ) p ( y ) p ( x ∣ y ) = N ( μ x + Σ x y Σ y y − 1 ( y − μ y ) , Σ x x − Σ x y Σ y y − 1 Σ y x ) p ( y ) = N ( μ y , Σ y y ) \begin{aligned} p(\boldsymbol{x}, \boldsymbol{y}) & =p(\boldsymbol{x} \mid \boldsymbol{y}) p(\boldsymbol{y}) \\ p(\boldsymbol{x} \mid \boldsymbol{y}) & =\mathcal{N}\left(\boldsymbol{\mu}_x+\boldsymbol{\Sigma}_{x y} \boldsymbol{\Sigma}_{y y}^{-1}\left(\boldsymbol{y}-\boldsymbol{\mu}_y\right), \boldsymbol{\Sigma}_{x x}-\boldsymbol{\Sigma}_{x y} \boldsymbol{\Sigma}_{y y}^{-1} \boldsymbol{\Sigma}_{y x}\right) \\ p(\boldsymbol{y}) & =\mathcal{N}\left(\boldsymbol{\mu}_y, \boldsymbol{\Sigma}_{y y}\right) \end{aligned} p(x,y)p(xy)p(y)=p(xy)p(y)=N(μx+ΣxyΣyy1(yμy),ΣxxΣxyΣyy1Σyx)=N(μy,Σyy)

推导过程使用的shur complement,将联合概率分布带入gaussian PDF展开,只关注二次项部分

p ( x , y ) = N ( [ μ x μ y ] , [ Σ x x Σ x y Σ y x Σ y y ] ) p(\boldsymbol{x}, \boldsymbol{y})=\mathcal{N}\left(\left[\begin{array}{l} \boldsymbol{\mu}_x \\ \boldsymbol{\mu}_y \end{array}\right],\left[\begin{array}{ll} \boldsymbol{\Sigma}_{x x} & \boldsymbol{\Sigma}_{x y} \\ \boldsymbol{\Sigma}_{y x} & \boldsymbol{\Sigma}_{y y} \end{array}\right]\right) p(x,y)=N([μxμy],[ΣxxΣyxΣxyΣyy])

( [ x y ] − [ μ x μ y ] ) T [ Σ x x Σ x y Σ y x Σ y y ] − 1 ( [ x y ] − [ μ x μ y ] ) = ( [ x y ] − [ μ x μ y ] ) T [ 1 0 − Σ y y − 1 Σ y x 1 ] [ ( Σ x x − Σ x y Σ y y − 1 Σ y x ) − 1 0 0 Σ y y − 1 ] × [ 1 − Σ x y Σ y y − 1 0 1 ] ( [ x y ] − [ μ x μ y ] ) = ( x − μ x − Σ x y Σ y y − 1 ( y − μ y ) ) T ( Σ x x − Σ x y Σ y y − 1 Σ y x ) − 1 × ( x − μ x − Σ x y Σ y y − 1 ( y − μ y ) ) + ( y − μ y ) T Σ y y − 1 ( y − μ y ) \begin{aligned} &\left(\left[\begin{array}{l} \boldsymbol{x} \\ \boldsymbol{y} \end{array}\right]-\left[\begin{array}{l} \boldsymbol{\mu}_x \\ \boldsymbol{\mu}_y \end{array}\right]\right)^{\mathrm{T}}\left[\begin{array}{ll} \boldsymbol{\Sigma}_{x x} & \boldsymbol{\Sigma}_{x y} \\ \boldsymbol{\Sigma}_{y x} & \boldsymbol{\Sigma}_{y y} \end{array}\right]^{-1}\left(\left[\begin{array}{l} \boldsymbol{x} \\ \boldsymbol{y} \end{array}\right]-\left[\begin{array}{l} \boldsymbol{\mu}_x \\ \boldsymbol{\mu}_y \end{array}\right]\right) \\ &=\left(\left[\begin{array}{l} \boldsymbol{x} \\ \boldsymbol{y} \end{array}\right]-\left[\begin{array}{l} \boldsymbol{\mu}_x \\ \boldsymbol{\mu}_y \end{array}\right]\right)^{\mathrm{T}} {\left[\begin{array}{cc} \mathbf{1} & \mathbf{0} \\ -\boldsymbol{\Sigma}_{y y}^{-1} \boldsymbol{\Sigma}_{y x} & \mathbf{1} \end{array}\right]\left[\begin{array}{cc} \left(\boldsymbol{\Sigma}_{x x}-\boldsymbol{\Sigma}_{x y} \boldsymbol{\Sigma}_{y y}^{-1} \boldsymbol{\Sigma}_{y x}\right)^{-1} & \mathbf{0} \\ \mathbf{0} & \boldsymbol{\Sigma}_{y y}^{-1} \end{array}\right] } \\ & \times\left[\begin{array}{cc} \mathbf{1} & -\boldsymbol{\Sigma}_{x y} \boldsymbol{\Sigma}_{y y}^{-1} \\ \mathbf{0} & \mathbf{1} \end{array}\right]\left(\left[\begin{array}{c} \boldsymbol{x} \\ \boldsymbol{y} \end{array}\right]-\left[\begin{array}{c} \boldsymbol{\mu}_x \\ \boldsymbol{\mu}_y \end{array}\right]\right) \\ &=\left(\boldsymbol{x}-\boldsymbol{\mu}_x-\boldsymbol{\Sigma}_{x y} \boldsymbol{\Sigma}_{y y}^{-1}\left(\boldsymbol{y}-\boldsymbol{\mu}_y\right)\right)^{\mathrm{T}}\left(\boldsymbol{\Sigma}_{x x}-\boldsymbol{\Sigma}_{x y} \boldsymbol{\Sigma}_{y y}^{-1} \boldsymbol{\Sigma}_{y x}\right)^{-1} \\ & \times\left(\boldsymbol{x}-\boldsymbol{\mu}_x-\boldsymbol{\Sigma}_{x y} \boldsymbol{\Sigma}_{y y}^{-1}\left(\boldsymbol{y}-\boldsymbol{\mu}_y\right)\right)+\left(\boldsymbol{y}-\boldsymbol{\mu}_y\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{y y}^{-1}\left(\boldsymbol{y}-\boldsymbol{\mu}_y\right) \end{aligned} ([xy][μxμy])T[ΣxxΣyxΣxyΣyy]1([xy][μxμy])=([xy][μxμy])T[1Σyy1Σyx01][(ΣxxΣxyΣyy1Σyx)100Σyy1]×[10ΣxyΣyy11]([xy][μxμy])=(xμxΣxyΣyy1(yμy))T(ΣxxΣxyΣyy1Σyx)1×(xμxΣxyΣyy1(yμy))+(yμy)TΣyy1(yμy)

3.2.1 高斯推断的理解

从状态的先验分布(P(x))出发,结合观测 值 y means y_{\text{means}} ymeans给出x的最佳估计,这个过程可以缩小x的方差,也就是让x的估计变好了。

3.3 高斯分布的线性变换

计算高斯分布的变换的关键就是计算均值和协方差,直接按照公式去推导即可。
在这里插入图片描述

3.4 高斯PDF的归一化积(一般PDF归一化积的高斯实现):用于融合同一变量的复合高斯分布的多次观测

成立的前提是:
K 个⾼斯概率密度函数的归⼀化积(参考 2.1.6 节)仍然是⾼斯概率密度函数
在这里插入图片描述
其中融合后的均值方差如下
在这里插入图片描述
融合后的方差变小,意味着多次融合的估计值更好。

同理我们也可以对高斯分布做线性变换之后的高斯分布做归一化积
在这里插入图片描述

3.5 高斯分布的非线性变换

  • 输入:高斯分布P(x), P(y|x)
  • 输出:非高斯分布P(y)
  • 假设:P(y|x)的噪声是零均值高斯噪声
    在这里插入图片描述
    输出PDF是非高斯分布,这里使用线性化,在输出点用高斯分布近似
    在这里插入图片描述

在这里插入图片描述

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!