Deep learning - Probability and Information theories IV

Deep learning - Probability and Information theories IV

Common probability distribution

Multivariate Gaussian distribution(多元常態分佈;Continuous)

\(\mathrm{X~Gaussian}(\mu, \sigma)\quad f_{\mathrm X}(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)

常態分佈亦可推廣至 \(\mathbb R^n\) 空間,稱作多元常態分佈

\[ \mathrm {X~Gaussian}(\boldsymbol \mu, \Sigma) \]

  • 機率密度函數(Probability density function)
    • \(f_X(\boldsymbol x) = \sqrt{\frac{1}{(2\pi)^d\det(\Sigma)}}e^{-\frac12(\boldsymbol x-\boldsymbol \mu)^T\Sigma^{-1}(\boldsymbol x-\boldsymbol \mu)}\)
  • \(\boldsymbol \mu = \begin{bmatrix}\mu_1 \\ \vdots \\ \mu_d\end{bmatrix} \in \mathbb R^d\) 為平均數向量
  • \(\Sigma \in \mathbb R^{n\times n}\) 共變異數矩陣(Covariance matrix)
  • \(\mathrm {X~Gaussian}(\boldsymbol \mu, \Sigma)\)
    • 則每個隨機變數 \(X_i\) 為單變量常態分佈
    • 反向不成立
  • 但是若 \(X_1, \ldots, X_d\) 為 i.i.d. 且 \(X_i~\mathrm{Gaussian}(\mu_i,\sigma_i)\)
    • \(\mathrm {X~Gaussian}(\boldsymbol \mu, \Sigma)\)
    • \(\boldsymbol \mu = \begin{bmatrix}\mu_1 \\ \vdots \\ \mu_d\end{bmatrix}\)
    • \(\Sigma = \mathrm{diag}(\sigma_1^2,\ldots,\sigma_d^2)\)

運用矩陣分解可以從另一個角度認識常態分布和共變異數矩陣

  • \(\Sigma\) 的正交對角化表達式為 \(\Sigma=Q\Lambda Q^T=BB^T\)
    • 其中 \(B=Q\Lambda^{1/2}\) 稱為極分解(見“極分解”)
    • \(Q\) 是一個正交矩陣表示旋轉或鏡射
    • \(\Lambda^{1/2}=\hbox{diag}(\sqrt{\lambda_1},\ldots,\sqrt{\lambda_n})\) 是一個正定矩陣表示伸縮
  • 馬氏距離可表示成
    • \(\Delta^2=(\mathbf{x}-\boldsymbol{\mu})^T(B^{-1})^TB^{-1}(\mathbf{x}-\boldsymbol{\mu}) \\=\Vert B^{-1}(\mathbf{x}-\boldsymbol{\mu})\Vert^2=\Vert\Lambda^{-1/2}Q^T(\mathbf{x}-\boldsymbol{\mu})\Vert^2\)
    • \(\mathbf{z}=\Lambda^{-1/2}Q^T(\mathbf{x}-\boldsymbol{\mu})\),即有 \(\Delta^2=\mathbf{z}^T\mathbf{z}\)
      • 隨機向量 \(\mathbf{z}\) 的機率密度函數
      • \(p(\mathbf{z})=\frac{1}{(2\pi)^{n/2}}\exp\left\{-\frac{1}{2}\mathbf{z}^T\mathbf{z}\right\}=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{z_i^2}{2}\right\}\)
        • 稱為標準常態分布
        • 平均數向量是 \(\boldsymbol{\mu}=\mathbf{0}\)
        • 共變異數矩陣是 \(\Sigma=I\)
    • 一般常態分布的隨機向量 \(\mathbf{x}\)其生成過程可表示為仿射變換
      • \(\mathbf{x}=Q\Lambda^{1/2}\mathbf{z}+\boldsymbol{\mu}\)
      • 先伸縮標準常態分布的隨機向量 \(\mathbf{z}\) 各個變數(乘以 \(\Lambda^{1/2}\)
      • 再旋轉(乘以 \(Q\)
      • 最後平移(加上 \(\boldsymbol{\mu}\)),如下圖
1555650665915

共變異數矩陣 \(\Sigma\) 的作用在於決定常態分布的伸縮 \(\Lambda^{1/2}\) 和旋轉 \(Q\)

1555650853286
  • 隨著 \(\mathrm{Cov}[X_1,X_2]\) 增長,會將等高線沿著 45 度伸長
  • 隨著 \(\mathrm{Cov}[X_1,X_2]\) 減少,會將等高線沿著 -45 度伸長
1555651404197
  • 上圖高度為 \(f_X(\boldsymbol x) = \sqrt{\frac{1}{(2\pi)^d\det(\Sigma)}}e^{-\frac12(\boldsymbol x-\boldsymbol \mu)^T\Sigma^{-1}(\boldsymbol x-\boldsymbol \mu)}\) 的輸出
    • 高度與馬氏距離成反比
    • \(\Sigma=\sigma^2I\) 則該常態分佈具有等向性(Isotropic)

特性

  • \(\mathrm {X~Gaussian}(\boldsymbol \mu, \Sigma)\)
    • 對於任意常數向量 \(\mathbf w\in\mathbb R^d\)
    • \(\mathrm {w^TX~Gaussian}(\mathbf w^T\boldsymbol \mu, \mathbf w^T\Sigma\mathbf w)\)
  • 廣義的說給定 \(\mathbf W\in \mathbb R^{d\times k}, k\leq d\)
    • \(\mathbf W^T\mathrm {X~Gaussian}(\mathbf W^T\boldsymbol \mu, \mathbf W^T\Sigma\mathbf W)\)\(k\) 變量常態分佈
    • 將隨機向量 \(\mathbf x\) 投影至 \(k\) 為空間仍然為常態分佈

Mahalanobis distance(馬氏距離)

常態分佈的機率密度函數由下列二次型決定: \[ \Delta^2 = (\boldsymbol x-\boldsymbol\mu)^T\Sigma^{-1}(\boldsymbol x-\boldsymbol\mu) \]

  • \(\Delta\) 稱為 \(\boldsymbol \mu\)\(\boldsymbol x\) 的馬氏距離
  • \(\Sigma = I_d\) ,則 \(\Sigma^2 = \Vert \boldsymbol x -\boldsymbol \mu\Vert^2\)
    • 馬氏距離退化為歐氏距離(Euclidean distance)
  • 通過解析馬氏距離的二次型表達式
    • 可以瞭解常態分布的幾何型態

不失一般性原則下,假設 \(\Sigma\) 為一個實對稱矩陣

  • 考慮特徵方程 \(\Sigma\mathbf{q}_i=\lambda_i\mathbf{q}_i\)
  • \(\Vert\mathbf{q}_i\Vert=1\)\(i=1,\ldots,d\)
  • 實對稱矩陣可正交對角化(實對稱矩陣可正交對角化的證明
    • \(Q=\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_d \end{bmatrix}\)\(\Lambda=\mathrm{diag}(\lambda_1,\ldots,\lambda_d)\)
    • \(\Sigma=Q\Lambda Q^T=\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_d \end{bmatrix}\begin{bmatrix} \lambda_1&&\\ &\ddots&\\ &&\lambda_d \end{bmatrix}\begin{bmatrix} \mathbf{q}_1^T\\ \vdots\\ \mathbf{q}_d^T \end{bmatrix}=\displaystyle\sum_{i=1}^d\lambda_i\mathbf{q}_i\mathbf{q}_i^T\)

將正交對角化分解後的式子代入馬氏距離公式 \[ \Delta^2=(\mathbf{x}-\boldsymbol{\mu})^TQ\Lambda^{-1}Q^T(\mathbf{x}-\boldsymbol{\mu})=\mathbf{y}^T\Lambda^{-1}\mathbf{y}=\displaystyle\sum_{i=1}^d\frac{y_i^2}{\lambda_i} \]

  • \(\mathbf{y}=Q^T(\mathbf{x}-\boldsymbol{\mu})\)
  • \(\mathbf{x}-\boldsymbol{\mu}=Q\mathbf{y}=\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_d \end{bmatrix}\begin{bmatrix} y_1\\ \vdots\\ y_d \end{bmatrix}=y_1\mathbf{q}_1+\cdots+y_d\mathbf{q}_d\)
    • \(\mathbf{x}-\boldsymbol{\mu}\)參考基底 \(\{\mathbf{q}_1,\ldots,\mathbf{q}_d\}\) 上的座標(向量)為 \(\mathbf y=\begin{bmatrix} y_1\\ \vdots\\ y_d \end{bmatrix}\)
    • 可以解讀為 \(\mathbf{y}\)\(\mathbf{x}\) 的仿射變換
    • \(\mathbf{y}\) 經過旋轉或鏡射 \(Q\),再平移 \(\boldsymbol{\mu}\) 得到 \(\mathbf{x}\)

Contour line(等高線)

透過等高線視覺化常態分布的型態

方便說明考慮 \(d=2\) 的情形

  • \(\Delta=1\),馬氏距離公式給出
    • \(\left(\frac{y_1}{\sqrt{\lambda_1}}\right)^2+\left(\frac{y_2}{\sqrt{\lambda_2}}\right)^2=1\)
  • 如果 \(\lambda_1\geq\lambda_2>0\),在新座標系統 \((y_1,y_2)\) 中(下圖)
    • 等高線的軌跡為一個標準橢圓
      • 長軸(即 \(y_1\) 軸)半徑等於 \(\sqrt{\lambda_1}\)
      • 短軸(即 \(y_2\) 軸)半徑等於 \(\sqrt{\lambda_2}\)
    • 在標準座標系統 \((x_1,x_2)\)
      • 特徵向量 \(\mathbf{q}_1\) 指向長軸方向
      • \(\mathbf{q}_2\) 指向短軸方向
    • 橢圓上的任何一個點 \(\mathbf{x}\)\(\boldsymbol{\mu}\) 的馬氏距離都等於 \(1\)
1555580591425

在實作上經常限制共變異數矩陣的型態

  • (a)一般共變異數矩陣
  • (b)共變異數矩陣是對角矩陣
    • \(\Sigma=\mathrm{diag}(\sigma_1^2,\ldots,\sigma_n^2)\)
    • \(\sigma_i^2\) 代表隨機變數 \(X_i\) 的變異數
  • (c)所有隨機變數 \(X_i\) 有相同的共變異數
    • \(\Sigma=\sigma^2I\)
1555580920252

Moment(動差)

考慮單變量常態分佈的動差:

  • 令隨機變數 \(W = X-\mu\)
    • \(W~\mathrm{Gaussian}(0,\sigma)\) 的機率密度函數會對稱於 \(W = 0\)
  • 期望值公式為 \(\mathrm E[X] = \int_{-\infty}^{\infty}xf_X(x)\mathrm dx\)
    • \(\text{E}[X]=\frac{1}{\sqrt{2\pi}\sigma}\int\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}xdx\\ =\frac{1}{\sqrt{2\pi}\sigma}\int\exp\left\{-\frac{w^2}{2\sigma^2}\right\}(w+\mu)dw\\=\frac{1}{\sqrt{2\pi}\sigma}(\int\exp\left\{-\frac{w^2}{2\sigma^2}\right\}wdw+\mu\int\exp\left\{-\frac{w^2}{2\sigma^2}\right\}dw.....(*)\\ =\mu\frac{1}{\sqrt{2\pi}\sigma}\int\exp\left\{-\frac{w^2}{2\sigma^2}\right\}dw=\mu\)
      • (*)式中的指數函數 \(\exp\)\(w\) 的偶函數,乘上 \(w\) 後變成奇函數,且積分範圍為 \((-\infty, \infty)\),根據對稱性前式為 0
  • 變異數公式為 \(\mathrm{Var}(X) = \mathrm E[(X-\mu)^2] = \int_{-\infty}^{\infty}(x-\mu)^2f_X(x)\mathrm dx \\=\int_{-\infty}^{\infty}\frac{(x-\mu)^2}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\mathrm dx\)
    • 已知 \(\int\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}dx=\sqrt{2\pi}\sigma\)
    • \(\sigma\) 求導數可得 \(\int\frac{(x-\mu)^2}{\sigma^3}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}dx=\sqrt{2\pi}\)
      • 將上式兩側同乘以 \(\frac{\sigma^2}{\sqrt{2\pi}}\)
      • 可得 \(\int_{-\infty}^{\infty}\frac{(x-\mu)^2}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\mathrm dx = \mathrm E[(X-\mu)^2] = \sigma^2\)

說明單變量常態分布的「參數」 \(\mu\) 是平均數,\(\sigma^2\) 是變異數

討論多變量常態分布的動差:

  • 令隨機變數 \(W = X-\boldsymbol\mu\)
  • 期望值公式為 \(\mathrm E[X] = \int_{-\infty}^{\infty}\boldsymbol xf_X(\boldsymbol x)\mathrm dx\)
    • \(\text{E}[\mathbf{X}]=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}\mathbf{x}d\mathbf{x}\\ =\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}(\mathbf{w}+\boldsymbol{\mu})d\mathbf{w}\\ =\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\left(\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}\mathbf{w}d\mathbf{w}+\boldsymbol{\mu}\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}d\mathbf{w}\right)\)
    • 指數函數 \(\exp\)\(\mathbf{w}\) 的偶函數,且積分範圍是 \((-\infty,\infty)\),根據對稱性可知上式第一項等於零,故得
      • \(\text{E}[\mathbf{x}]=\boldsymbol{\mu}\int\mathcal{N}(\mathbf{w}\vert\mathbf{0},\Sigma)d\mathbf{w}=\boldsymbol{\mu}\)
      • 因此稱 \(\boldsymbol{\mu}\) 是常態分布的平均數向量

考慮二階動差

  • 對於單變量二階動差
    • \(\text{E}[X^2]\) 給定
  • 對於多變量
    • 共有 \(n^2\) 個二階動差 \(\text{E}[X_iX_j]\)\(i,j=1,\ldots,n\)
    • 因為期望值是線性運算,所有的二階動差可合併為一個 \(n\times n\) 階矩陣 \(\text{E}[\mathbf{x}\mathbf{x}^T]\)

\[ \displaystyle \begin{aligned} \text{E}\left[\mathbf{x}\mathbf{x}^T\right]&=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}\mathbf{x}\mathbf{x}^Td\mathbf{x}\\ &=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}(\mathbf{w}+\boldsymbol{\mu})(\mathbf{w}+\boldsymbol{\mu})^Td\mathbf{w}. \end{aligned} \]

  • \((\mathbf{w}+\boldsymbol{\mu})(\mathbf{w}+\boldsymbol{\mu})^T=\mathbf{w}\mathbf{w}^T+\mathbf{w}\boldsymbol{\mu}^T+\boldsymbol{\mu}\mathbf{w}^T+\boldsymbol{\mu}\boldsymbol{\mu}^T\)
    • 根據對稱性,交互項 \(\mathbf{w}\boldsymbol{\mu}^T\)\(\boldsymbol{\mu}\mathbf{w}^T\) 的積分等於零
    • \(\boldsymbol{\mu}\boldsymbol{\mu}^T\) 可提出,剩下的機率密度函數積分等於 \(1\)
    • \(\boldsymbol{\mu}\boldsymbol{\mu}^T\int\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}d\mathbf{w}=\boldsymbol{\mu}\boldsymbol{\mu}^T\)
    • 考慮包含 \(\mathbf{w}\mathbf{w}^T\) 的積分
      • \(\Sigma=Q\Lambda Q^T=\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_d \end{bmatrix}\begin{bmatrix} \lambda_1&&\\ &\ddots&\\ &&\lambda_d \end{bmatrix}\begin{bmatrix} \mathbf{q}_1^T\\ \vdots\\ \mathbf{q}_d^T \end{bmatrix}=\displaystyle\sum_{i=1}^d\lambda_i\mathbf{q}_i\mathbf{q}_i^T\)
      • \(\mathbf{v}=Q^T\mathbf{w}\)\(\mathbf{w}=Q\mathbf{v}=\sum_{i=1}^nv_i\mathbf{q}_i\)
        • \(\mathbf{w}\mathbf{w}^T=Q\mathbf{v}\mathbf{v}^TQ^T=\sum_{i=1}^n\sum_{j=1}^nv_iv_j\mathbf{q}_i\mathbf{q}_j^T\)
        • \(\mathbf{w}^T\Sigma^{-1}\mathbf{w}=\mathbf{v}^TQ^T\Sigma^{-1} Q\mathbf{v}=\mathbf{v}^T\Lambda^{-1}\mathbf{v}=\sum_{k=1}^nv_k^2/\lambda_k\)
      • \(\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\int\exp\left\{-\frac{1}{2}\mathbf{w}^T\Sigma^{-1}\mathbf{w}\right\}\mathbf{w}\mathbf{w}^Td\mathbf{w}\\ =\sum_{i=1}^n\sum_{j=1}^n\mathbf{q}_i\mathbf{q}_j^T\frac{1}{(2\pi)^{n/2}(\lambda_1\cdots\lambda_n)^{1/2}}\int\exp\left\{-\sum_{k=1}^n\frac{v_k^2}{2\lambda_k}\right\}v_iv_jd\mathbf{v}\\ =\sum_{i=1}^n\mathbf{q}_i\mathbf{q}_i^T\left(\prod_{k=1\atop k\neq i}^n\frac{1}{(2\pi\lambda_k)^{1/2}}\int\exp\left\{-\frac{v_k^2}{2\lambda_k}\right\}dv_k\cdot\frac{1}{(2\pi\lambda_i)^{1/2}}\int\exp\left\{-\frac{v_i^2}{2\lambda_i}\right\}v_i^2dv_i\right)\\ =\sum_{i=1}^n\mathbf{q}_i\mathbf{q}_i^T\lambda_i=\Sigma\)
        • \(i\neq j\),根據對稱性可知積分為零,並使用單變量變異數 \(\hbox{E}\left[v_i^2\right]=\lambda_i\)
      • \(\hbox{E}\left[\mathbf{x}\mathbf{x}^T\right]=\boldsymbol{\mu}\boldsymbol{\mu}^T+\Sigma\)
    • \(\hbox{cov}[\mathbf{x}]= \hbox{E}\left[\mathbf{x}\mathbf{x}^T-\mathbf{x}\boldsymbol{\mu}^T-\boldsymbol{\mu}\mathbf{x}^T+\boldsymbol{\mu}\boldsymbol{\mu}^T\right]\\ =\hbox{E}\left[\mathbf{x}\mathbf{x}^T\right]-\text{E}[\mathbf{x}]\boldsymbol{\mu}^T-\boldsymbol{\mu}\text{E}\left[\mathbf{x}\right]^T+\boldsymbol{\mu}\boldsymbol{\mu}^T\\ =\hbox{E}\left[\mathbf{x}\mathbf{x}^T\right]-\boldsymbol{\mu}\boldsymbol{\mu}^T=\Sigma\)